专栏首页hadoop学习笔记pyhanlp 繁简转换之拼音转换与字符正则化

pyhanlp 繁简转换之拼音转换与字符正则化

繁简转换

HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。

·说明

· HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字,HanLP可以。

·算法详解

· 《汉字转拼音与简繁转换的Java实现》

汉字转拼音

HanLP中的汉字转拼音功能也十分的强大。

·说明

· HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。

· HanLP能够识别多音字,也能给繁体中文注拼音。

· 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度!

·算法详解

· 《汉字转拼音与简繁转换的Java实现》

拼音转中文

HanLP中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能,我们可以使用AhoCorasickDoubleArrayTrie实现的最长分词器,需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie

字符正则化

演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。

该配置项位于hanlp.properties中,通过Normalization=true来开启(现在直接通过HanLP.Config.Normalization开启即可)。

切换配置后必须删除CustomDictionary.txt.bin缓存,否则只影响动态插入的新词。

在我动笔前一个星期,已经有同学添加了,添加自定义词典之后,自动删除缓存的功能。地址请点击https://github.com/hankcs/HanLP/pull/954,现在只需要开启正则化即可

1| HanLP.Config.Normalization = False

2|

3| [爱听4g]

4| [爱听4G]

5| [爱, 听, 4, G]

6| [爱, 听, 4, G]

7| [愛, 聽, 4, G]

8| [喜欢, 4, G]

9| [hankcs, 在, 臺, 灣寫, 代, 碼]

10|

11| HanLP.Config.Normalization = True

12|

13| [爱听4g]

14| [爱听4g]

15| [爱听4g]

16| [爱听4g]

17| [爱听4g]

18| [喜欢, 4, g]

19 |[hankcs, 在, 中国台湾, 写, 代码]

20| 現在的HanLP已經新增了新增自定義詞典之後,自動刪除快取的功能,現在只需要開啟正則化即可

21| [现在, 的, hanlp, 已经, 新增, 了, 新增, 自定义, 词典, 之后, ,, 自动, 删除, 快, 取, 的, 功能, ,, 现在, 只, 需要, 开启, 正, 则, 化, 即可]

原文链接:https://blog.csdn.net/FontThrone/article/details/82828779

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 汉语言处理工具pyhanlp的拼音转换与字符正则化

    l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。

    IT小白龙
  • 一文掌握 HanLP 用法

    本文简绍了 HanLP 的使用方法,HanLP 是一系列模型与算法组成的 NLP 工具包,由大快搜索主导并完全开源,目前支持很多功能,项目主要是 Java 的,...

    用户1737318
  • iOS一点点 - TableView 拼音序排序(汉字转拼音、简繁体转换、日文转罗马音等)

    Introduction to ICU General Transforms Transform Rule Tutorial 使用ICU进行拼音转汉字暂时似乎也...

    Alan Zhang
  • NLP之pyhanlp安装及其使用

    pyhanlp的github:https://github.com/hankcs/pyhanlp

    菲宇
  • 初学者|一文掌握HanLP用法

    本文简绍了HanLP的使用方法,HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目前支持很多功能,项目主要是Java的,也支持pyth...

    yuquanle
  • 初学者|一文掌握HanLP用法

    本文简绍了HanLP的使用方法,HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目前支持很多功能,项目主要是Java的,也支持pyth...

    AiTechYun
  • 汉语言处理工具pyhanlp的简繁转换

    HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做...

    IT小白龙
  • Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考。

    AINLP
  • JPinYin,一个汉字拼音转换的利器,你值得拥有

    在某些场景中,可能为了方便用户快速搜索,使用拼音首字母的方式进行检索。举个例子,一个系统支持拼音首字母检索,那么输入hzlj就可以搜索出杭州龙井等商品结果,系统...

    孟君

扫码关注云+社区

领取腾讯云代金券