专栏首页AI科技大本营的专栏汉语转拼音工具、新华字典API——两个支持Python的中文资源

汉语转拼音工具、新华字典API——两个支持Python的中文资源

整理 | Jane

出品 | AI科技大本营

【导读】平常为大家推荐的资源中,以英语语言占据大多数。今天 AI科技大本营特别要为大家推荐两个跟中文相关的资源工具。先简单介绍下这两个资源工具都是什么。第一个,汉字转拼音的工具——即将中文字符转换成它的拼音。除了支持 JavaScript,还可以支持 Python、Go、Rust 等多种语言。可以说是非常 nice 的一个中文资源工具了。第二个是新华字典的 API,收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。有需要的同学可以收藏留着用,觉得不错记得分享点赞。

汉字转拼音工具

功能

将中文字符转换为拼音。可用于汉字注音、排序、检索任务。

特性

  • 根据词组智能匹配最正确的拼音。
  • 支持多音字。
  • 简单的繁体支持, 注音支持。
  • 支持多种不同拼音/注音风格。

支持版本

1.Node.js/JavaScript 版 注:这个版本同时支持在 Node 和 Web 浏览器环境运行;

作者:hotoo;来源:GitHub https://github.com/hotoo/pinyin

2.Python 版

作者:mozillazg;来源:GitHub https://github.com/mozillazg/python-pinyin

3. Go 版

作者:mozillazg;来源:GitHub https://github.com/mozillazg/go-pinyin

4.Rust 版

作者:mozillazg;来源:GitHub https://github.com/mozillazg/rust-pinyin

一些注意事项

1.为什么没有 y, w, yu 几个声母?

1>>> from pypinyin import Style, pinyin
2>>> pinyin('下雨天', style=Style.INITIALS)
3[['x'], [''], ['t']]

因为根据 《汉语拼音方案》, y,w,ü (yu) 都不是声母。

声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据 《汉语拼音方案》 , y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo

如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。 这时候你也许需要的是首字母风格(FIRST_LETTER)。 —— @hotoo

参考: hotoo/pinyin#57, #22, #27, #44

如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 strict=False , 这个可能会符合你的预期,详见 strict 参数的影响

1>>> from pypinyin import Style, pinyin
2>>> pinyin('下雨天', style=Style.INITIALS)
3[['x'], [''], ['t']]
4>>> pinyin('下雨天', style=Style.INITIALS, strict=False)
5[['x'], ['y'], ['t']]

2.拼音数据

  • 单个汉字的拼音使用 pinyin-data 的数据
  • 词组的拼音使用 phrase-pinyin-data 的数据

3.node 版和 web 版有什么异同?

pinyin 目前可以同时运行在 Node 服务器端和 Web 浏览器端。 API 和使用方式完成一致。但 Web 版较 Node 版稍简单,拼音库只有常用字部分,没有使用分词算法, 并且考虑了网络传输对词库进行了压缩处理。

由于分词和繁体中文的特性,部分情况下的结果也不尽相同。由于这些区别,测试不同运行环境的用例也不尽相同。

特性

Web 版

Node 版

拼音库

常用字库。压缩、合并

完整字库。不压缩、合并

分词

没有分词

使用分词算法,多音字拼音更准确。

拼音频度排序

有根据拼音使用频度优先级排序。

同 Web 版。

繁体中文

没有繁体中文支持。

有简单的繁简汉字转换。

更多详细安装与使用教程可访问 GitHub 链接进行访问~

各版本 GitHub 地址:

https://github.com/hotoo/pinyin

https://github.com/mozillazg/python-pinyin

https://github.com/mozillazg/go-pinyin

https://github.com/mozillazg/rust-pinyin

新华字典 API

介绍

作者本来的目的是想可以实现成语接龙,苦于没有现成可用的数据库,自己就从各个网站抓取整理了一份。所有的数据都作者从网上找的。放在 Github 是为了方便自己的使用,同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。

中华新华字典数据库和 API 。收录包括 14032 条歇后语,16142 个汉字,264434 个词语,31648 个成语。所有的数据放在 data/ 目录。

数据库与 API 介绍

1.成语(idiom.json)

2.词语(ci.json)

3.汉字(word.json)

4.歇后语(xiehouyu.json)

使用可访问 GitHub 地址:

https://github.com/pwxcoo/chinese-xinhua

本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 资源 | 深度学习图像标注工具汇总

    对于监督学习算法而言,数据决定了任务的上限,而算法只是在不断逼近这个上限。世界上最遥远的距离就是我们用同一个模型,但是却有不同的任务。但是数据标注是个耗时耗力的...

    AI科技大本营
  • 资源 | 我们从8800个机器学习开源项目中精选出Top30,推荐给你

    最近,Mybridge发布了一篇文章,对比了过去一年中机器学习领域大约8800个开源项目后,选出30个2017年度优秀的开源项目,包含机器学习开源库、数据库以及...

    AI科技大本营
  • 初学者的福利,NLP呕心总结资料包

    第一种,在实践中学习,找一个特定的任务,譬如文本分类、情感分析等。然后以做好任务为导向的去挖掘和这一个任务相关的知识点。

    AI科技大本营
  • Spring boot 的彩色日志

    如果在你的项目中启用了你自己定义的 logback.xml 配置的话,本来是彩色的日志输出就变成黑白色了。

    HoneyMoose
  • 【数据分析可视化】Series和DataFrame的排序

    瑞新
  • 谷歌AI错杀Chrome插件,全职奶爸程序员“睡后收入”被迫终结

    不用上班,在家带娃,靠软件开发副业赚取被动收入,柏林程序员Azer Koçulu过着人人羡慕的生活。

    量子位
  • 2020年GitHub高赞vue的UI框架

    在做vue项目开发的时候遇到了一个问题,如何选择自己的技术栈?随着vue的开发者越来越多,各种框架也渐渐多起来,面对众多的框架,如何选择一款适合自己业务的框架,...

    王小婷
  • python测试开发django-68.templates模板标签{% for %}

    有些标签类似这样:{% tag %} ,需要开始和结束标签 例如:{% tag %} …标签 内容 … {% endtag %},一般用于循环列表对象输出内容。

    上海-悠悠
  • 人工智能如何让数字人物变成好莱坞新星

    【新智元导读】AI已经是好莱坞最重要的技术,机器可以担任脚本主管,进行电影编辑,甚至为模拟真人的数字角色或CG动画角色创造出真实的表演。这种技术会对好莱坞的产业...

    新智元
  • 什么是CBRS及其对物联网有何帮助?

    2.21.20-What-Is-CBRS-and-How-Does-It-Help-IoT_.jpg

    用户4122690

扫码关注云+社区

领取腾讯云代金券