资源 | 中文NLP资源库

乾明 编辑整理 量子位 出品 | 公众号 QbitAI

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典。

词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库。

否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库。

地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据。

目前,这份资源在GitHub上已经超过了700星。

收罗这份资源的人,在GitHub上昵称为“Yang”,备注信息中显示,他是北航的博士。在知乎上也开设了一个专栏,专门介绍关于机器学习的小知识。

在Yang给出的这份资源中,他并不只是简简单单地提供一些词库了事,还给出了32个词库的用法。

比如,中英文敏感词过滤:

>>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

有时,还会针对一些词库给出提示,针对这个词库他就提示道:

敏感词包括政治、脏话等话题词汇。其原理主要是基于词典的查找(项目中的keyword文件),内容很劲爆。。。

再来一个根据名字判断性别的例子:

pip install ngender # 基于朴素贝叶斯计算的概率

>>> import ngender
>>> ngender.guess('赵本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)

此处省略了其他30个……如果有兴趣,可以去看看,收藏下来,以备不时之需。

传送门:(点击阅读原文即可访问) https://github.com/fighting41love/funNLP

作者知乎专栏地址: https://zhuanlan.zhihu.com/yangyangfuture


原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2018-11-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

谷歌公司开发出高速、离线语音识别技术

据科技资讯网站zdnet(www.zdnet.com)报道,谷歌开发出了可在未联网的Nexus 5智能手机上实时运行的语音识别系统。该系统无需通过远程数据中心进...

4465
来自专栏新智元

AI真的会杀人?DeepMind开发了二维网格游戏来做测试

来源:DeepMind、arXiv、fortune 作者:张乾 【新智元导读】人工智能安全性的话题一直热度不减,马斯克和霍金都公开呼吁过。不过,DeepMind...

28712
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(4)——借博客点击兼谈干预规则

讲过长课的老师,常在受众将发生审美疲劳之时段,安排一点有趣的内容。为消除疲劳,现来一段有趣的、与博友的自尊心和荣誉感相关的博文,议题是:挖掘科学博客的平均...

3237
来自专栏机器之心

深度 | 从GPU制造者到服务器提供商:英伟达的计算平台转型

这是一次巨大的转变,但对所有以计算为中心的平台供应商而言,这个过程终将——在某些情况下逐渐地发生。

1330
来自专栏媒矿工厂

2017 HDR技术动态

2017年是HDR发展突飞猛进的一年,这一年里,HDR不仅仅在技术层面取得了巨大的进步,在消费市场也取得了极大的成功,在其他相关领域中也得到了广泛的应用。 在消...

6017
来自专栏新智元

【Science重磅】自学习人工智能在预测心脏病发作上击败人类医生

【新智元导读】Science 今日报道,科学家使用能够自学习的人工智能技术,让计算机在预测心脏病的发作上击败了人类医生。一旦投入使用,这一新的诊疗手段每年将拯救...

3806
来自专栏机器之心

前沿 | Science:自学习式人工智能可协助预测心脏病发作

选自Science 作者:Matthew Hutson 机器之心编译 参与:蒋思源、黄小天 近年来,将人工智能应用于医疗健康已经在蓬勃发展,机器之心也曾报道过医...

39912
来自专栏BestSDK

Cloudsight推出图像识别API,免费开放给教育机构

如果自己研发做图像识别的成本比较高,尤其是在没有一个很好的硬件设施(GPU)的情况下,还是通过API比较合适。 ? 计算机科学学位的技术往往要落后于现实。许多学...

4323
来自专栏镁客网

黑科技 | 平面显微镜让失明者恢复视觉?莱斯大学推出可控制视觉系统

1847
来自专栏量子位

OpenAI推出开源机器人模拟软件Roboschool(附代码)

李林 编译自 OpenAI 量子位 报道 | 公众号 QbitAI 今天,马斯克和YC总裁Altman等硅谷名流共同创办的人工智能非营利组织OpenAI发布了一...

3629

扫码关注云+社区

领取腾讯云代金券