资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

发布于 2019-04-24 15:21:52

1.4K0

发布于 2019-04-24 15:21:52

文章被收录于专栏：量子位

乾明编辑整理量子位出品 | 公众号 QbitAI

你还在为进行中文NLP找不到词库而发愁吗？

你还在为了从文本中抽取结构化信息而抓耳挠腮吗？

现在，这些症状可以得到缓解了。

最近，在GitHub上，有人收罗了一份资源，汇集了40个关于中文NLP词库，涵盖了各个方面。

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

目前，这份资源在GitHub上已经超过了700星。

收罗这份资源的人，在GitHub上昵称为“Yang”，备注信息中显示，他是北航的博士。在知乎上也开设了一个专栏，专门介绍关于机器学习的小知识。

在Yang给出的这份资源中，他并不只是简简单单地提供一些词库了事，还给出了32个词库的用法。

比如，中英文敏感词过滤：

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

有时，还会针对一些词库给出提示，针对这个词库他就提示道：

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找（项目中的keyword文件），内容很劲爆。。。

再来一个根据名字判断性别的例子：

pip install ngender # 基于朴素贝叶斯计算的概率

>>> import ngender
>>> ngender.guess('赵本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)

此处省略了其他30个……如果有兴趣，可以去看看，收藏下来，以备不时之需。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-11-16，如有侵权请联系 cloudcommunity@tencent.com 删除

github

git

开源

NLP 服务

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

乾明编辑整理量子位出品 | 公众号 QbitAI

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

乾明 编辑整理 量子位 出品 | 公众号 QbitAI

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

乾明编辑整理量子位出品 | 公众号 QbitAI