资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

乾明 编辑整理 量子位 出品 | 公众号 QbitAI

你还在为进行中文NLP找不到词库而发愁吗?

你还在为了从文本中抽取结构化信息而抓耳挠腮吗?

现在,这些症状可以得到缓解了。

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。 词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。 否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。 地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

目前,这份资源在GitHub上已经超过了700星。

收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。

在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。

比如,中英文敏感词过滤:

 >>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

有时,还会针对一些词库给出提示,针对这个词库他就提示道:

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。

再来一个根据名字判断性别的例子:

pip install ngender # 基于朴素贝叶斯计算的概率

>>> import ngender
>>> ngender.guess('赵本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)

此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。

传送门: https://github.com/fighting41love/funNLP

作者知乎专栏地址: https://zhuanlan.zhihu.com/yangyangfuture

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

入门深度学习应该学什么

最近被人问的最多的一个问题是“我想入门深度学习,我应该学些什么”。 老实说,这个问题不是那么好回答,毕竟每个人的知识背景和技能背景实在是太不一样了。如果要假设...

3807
来自专栏量子位

建造一个人造大脑,现在就可以

现有技术已使类脑技术成为可能,只要我们愿意花钱 作者:佐治亚理工学院教授Jennifer Hasler 若朴 李林 编译自 IEEE 量子位 出品 | 公众号 ...

2845
来自专栏量子位

OpenAI推出开源机器人模拟软件Roboschool(附代码)

李林 编译自 OpenAI 量子位 报道 | 公众号 QbitAI 今天,马斯克和YC总裁Altman等硅谷名流共同创办的人工智能非营利组织OpenAI发布了一...

3629
来自专栏新智元

FaceApp:基于深度网络为人像照片加笑容,实现年龄、性别变换

【新智元导读】 FaceApp 不仅是一个有趣的应用,它证明了人工智能如何使得处理照片变得前所未有的简单。比如,p上笑容、年龄和性别转换均可以轻松完成。过年拍...

41611
来自专栏生信技能树

【好书共享】《R for Data Science》的中译版

这本书将教我们如何用R来做数据科学:学习如何将自己的数据导入R中,把它变成最有用的结构,转换,可视化并对数据进行建模。在这本书中,我们会学习数据科学需要实用技能...

3662
来自专栏AI研习社

看过10万个视频 AI才能识别你的脑残操作 | 2分钟读论文

来源 / Two Minute Papers 翻译 / 朱婷 校对 / 李宇琛 整理 / 雷锋字幕组 AI 研习社出品系列短视频《 2 分钟论文 》,带大家用...

3145
来自专栏机器学习算法与Python学习

资源 | 中文NLP资源库

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

2202
来自专栏媒矿工厂

2017 HDR技术动态

2017年是HDR发展突飞猛进的一年,这一年里,HDR不仅仅在技术层面取得了巨大的进步,在消费市场也取得了极大的成功,在其他相关领域中也得到了广泛的应用。 在消...

6027
来自专栏PPV课数据科学社区

【学习】为什么你的数据分析那么好,图表做得那么烂?

导读 所有优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当...

3143
来自专栏新智元

AI真的会杀人?DeepMind开发了二维网格游戏来做测试

来源:DeepMind、arXiv、fortune 作者:张乾 【新智元导读】人工智能安全性的话题一直热度不减,马斯克和霍金都公开呼吁过。不过,DeepMind...

28712

扫码关注云+社区

领取腾讯云代金券