这份NLP研究进展汇总请收好,GitHub连续3天最火的都是它

方栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI

最近,有一份自然语言处理 (NLP) 进展合辑,一发布就受到了同性交友网站用户的疯狂标星,已经连续3天高居GitHub热门榜首位。

合集里面包括,20多种NLP任务前赴后继的研究成果,以及用到的数据集。

这是来自爱尔兰的Sebastian Ruder,倾力汇总而成。

他在爱尔兰国立大学 (戈尔韦) 读博。另一个身份,是AI创业公司Aylien的研究人员。

塞巴斯蒂安说,NLP近来发展太快了,即便作为局内人,也很难顺畅地跟进这个领域里发生的事。

无微不至的仓库

要找到最常用的数据集,要了解自己研究的问题有了哪些新进展,还是很费力的。

所以,他就在GitHub上面建了一个仓库,追踪各种自然语言任务的研究成果,还有对应的数据集。

这是一间整齐的仓库,任务是按字母顺序排列——

· CCG supertagging · Chunking · Constituency parsing · Coreference resolution · Dependency parsing · Dialog · Domain adaptation · Language modelling · Machine translation · Multi-task learning · Multimodal · Named entity recognition · Natural language inference · Part-of-speech tagging · Question answering · Semantic textual similarity · Sentiment analysis · Semantic parsing · Semantic role labeling · Summarization · Text classification

作为一个情绪型选手,我点开了情绪分析 (Sentiment Analysis) 的页面。

这里的数据集很亲切,比如IMDb,电影评分网站的数据。

再比如,“ (姑且称为) 美国的大众点评”,Yelp的店铺评论数据集。

每个数据集下面,都有相关研究的列表,以及所用模型的准确度

当然,情绪的二分类 (Binary Classification) ,以及细粒度分类 (Fine-Grained Classification) ,作为两种问题,列表也是分开的。

这人文关怀,无微不至。

未解之谜

塞巴斯蒂安还说了,上面列出的那些,是已经开始追踪的NLP任务。

还有一些任务,被他加入了心愿单——

· Bilingual dictionary induction · Discourse parsing · Entity Linking · Information extraction · Keyphrase extraction · Knowledge base population (KBP) · More dialogue tasks · Relation extraction · Semi-supervised learning

这些问题的进展,在他那里还是未解之谜。

深知以一己之力难以将这部分内容补充完整,程序员还给了详细的参与步骤,希望广大NLP战士,可以互相取暖。

去看一看

塞巴斯蒂安给NLP的爱,很深沉了。

他的博客,各位同行或许也很眼熟了。

变身前:Sebastianruder.com 变身后:Ruder.io

没有收藏的话,现在可以收藏一下。

当然,这里也要手动贴上NLP仓库的地址:

https://github.com/sebastianruder/NLP-progress

且去走一遭。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

邓侃解读:医疗关键数据时间序列敏感度分析的通用方法

---- 新智元专栏 作者:邓侃 【新智元导读】密歇根州立大学、康奈尔大学腾讯研究院的几位学者,联名发表了一篇题为 “Identify Suscept...

40160
来自专栏Python中文社区

Python教你找到最心仪的对象

專 欄 ❈ Toby,Python中文社区专栏作者,目前供职于国内最大的医药大数据平台,任数据分析组长。关注自然语言处理,英文密码学,医药统计学。 博客: h...

21790
来自专栏数据派THU

教你用Python解锁“吃鸡”的正确姿势!

本文用Python分析吃鸡比赛的真实数据,解答至关重要的9个问题,助你提高吃鸡概率。

31430
来自专栏思影科技

AJP:青少年饮酒后大脑发育轨迹发生改变

薛老师和他的猫推荐你关注思影科技 来自美国加州SRI国际健康科学中心、斯坦福大学等机构的研究人员联合在The American journal of psych...

32090
来自专栏龙行天下CSIEM

科学瞎想系列之六十二 磁悬浮

所谓悬浮就是上不着天、下不着地、哪也不挨、悬在半空,磁悬浮就是利用磁场的作用力使物体上不着天下不着地。磁悬浮技术主要被用做有相对运动的两个物体之间,避免运...

28960
来自专栏程序员的诗和远方

20180902_ARTS_week10

这周因为有些事情忙,挑了条 easy 难度的题。整个思路比较简单,算面积嘛,然后左右两边分别有两个游标,哪个低了哪个就往中间移动一格。复杂度 O(n)。

8320
来自专栏Data Analysis & Viz

乱炖“简书交友”数据之代码(2)

继续更新出来本系列的代码:乱炖数据之2700余篇“简书交友”专题文章数据的花式玩法

14030
来自专栏灯塔大数据

分析 |《狄仁杰之四大天王》影评分析(爬虫+词云+热力图)

作为徐老怪的忠实影迷,《狄仁杰之四大天王》肯定是要去看的,看豆瓣评分和前两部相差不多,但其实作者本人并不是很喜欢前两部,所以在犹豫要不要去看,于是简单去分析了一...

12820
来自专栏腾讯位置服务

距离矩阵服务上线,实现最优派单及路径解决方案

继一对多的距离计算服务后,腾讯位置服务近日再次升级,推出更为强大的距离矩阵(多对多)距离服务。从计算性能上来看,多对多矩阵最高支持25×25矩阵(一次请求计算路...

23620
来自专栏Y大宽

溶酶体和线粒体共存的可能性

在正常情况下,大部分肝细胞处于G0期,很少分裂,但是当受到某些机械,病毒,药物等刺激时,G0期细胞可以进入G1期,启动细胞周期。大鼠进行2/3肝切除后,剩余肝脏...

12720

扫码关注云+社区

领取腾讯云代金券