首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

pyhanlp 繁简转换之拼音转换与字符正则化

繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。...·算法详解 · 《汉字转拼音与简繁转换的Java实现》 汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。...·说明 · HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 · HanLP能够识别多音字,也能给繁体中文注拼音。...·算法详解 · 《汉字转拼音与简繁转换的Java实现》 拼音转中文 HanLP中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能,我们可以使用AhoCorasickDoubleArrayTrie...实现的最长分词器,需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie 字符正则化 演示正规化字符配置项的效果(繁体->简体,全角->半角,大写

1K30

elasticsearch-数据聚合排序查询、搜索框自动补全、数据同步、集群

因为需要根据拼音字母来推断,因此要用到拼音分词功能。 2.1. 拼音分词器 要实现根据字母做补全,就必须对文档按照拼音分词。在 GitHub 上恰好有 elasticsearch 的拼音分词插件。...地址:https://github.com/medcl/elasticsearch-analysis-pinyin 课前资料中也提供了拼音分词器的安装包: 安装方式与 IK 分词器一样,分三步: ​...自定义分词器 默认的拼音分词器会将每个汉字单独分为拼音,而我们希望的是每个词条形成一组拼音,需要对拼音分词器做个性化定制,形成自定义分词器。...实现酒店搜索框自动补全 现在,我们的 hotel 索引库还没有设置拼音分词器,需要修改索引库中的配置。但是我们知道索引库是无法修改的,只能删除然后重新创建。...因此,总结一下,我们需要做的事情包括: 修改 hotel 索引库结构,设置自定义拼音分词器 修改索引库的 name、all 字段,使用自定义分词器 索引库添加一个新字段 suggestion

23910

ElasticSearch-高级特性

因为需要根据拼音字母来推断,因此要用到拼音分词功能。 2.1.拼音分词器 要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。...测试用法如下: POST /_analyze {   "text": "如家酒店还不错",   "analyzer": "pinyin" } 结果: 2.2.自定义分词器 默认的拼音分词器会将每个汉字单独分为拼音...,而我们希望的是每个词条形成一组拼音,需要对拼音分词器做个性化定制,形成自定义分词器。...因此,总结一下,我们需要做的事情包括: 修改hotel索引库结构,设置自定义拼音分词器 修改索引库的name、all字段,使用自定义分词器 索引库添加一个新字段suggestion,类型为completion...; import java.util.Arrays; import java.util.Collections; import java.util.List; @Data @NoArgsConstructor

10720

Docker 通过 Dockfile 安装 elasticsearch 以及 ik ,pinyin 分词

Successfully built 8c9220f304be Successfully tagged elasticsearch-ik-pinyin:5.6.9 创建容器 docker run -e ES_JAVA_OPTS...:9300 -e "discovery.type=single-node" --name elasticsearch_test elasticsearch-ik-pinyin:5.6.9 -e ES_JAVA_OPTS...elasticsearch 启动的内存大小,默认是系统一半内存 -e discovery.type 是设置为单节点 elasticsearch-ik-pinyin:5.6.9 就是构建镜像的镜像名和版本号 测试分词 测试拼音..."end_offset":9, "type":"CN_WORD", "position":9 } ] } 注:不管是拼音分词器还是...IK分词器,当深入搜索一条数据是时,必须是通过分词器分析的数据,才能被搜索到,否则搜索不到 IK分词和拼音分词的组合使用 PUT /my_index { "settings": {

19921

Java 代码实现——使用 IK 分词器进行词频统计

本文主要介绍如何通过 IK 分词器进行词频统计。 使用分词器对文章的词频进行统计,主要目的是实现如下图所示的词云功能,可以找到文章内的重点词汇。...,黑名单,同义词等 现存的中文分词器有 IK、HanLP、jieba 和 NLPIR 等几种,不同分词器各有特点,本文使用 IK 实现,因为 ES 一般使用 medcl 等大佬封装的 IK 分词器插件作为中文分词器...由于 ES 的 IK 分词器插件深度结合了 ES,仅对文本分词使用不到 ES 的内容,所以文本采用申艳超大佬版本的 IK。...M 个数字获取 TopN 有以下算法: M 小 N 小:快速选择算法 M 大 N 小:小顶堆 M 大 N 大:归并排序 本文采用小顶堆方式实现,对应JAVA中的优先队列数据结构 PriorityQueue...但是功能比较基础,感兴趣的同学可以实现一下词排序方式变更(tf/idf)、词性标注、实体识别和情感分析等功能;IK 分词器较为局限,需要使用 HanLP(自带词性标注)等更高级的分词器以及 NLP 相关知识来辅助

2.1K20
领券