回望2017,基于深度学习的NLP研究大盘点

AI 科技评论按:本文是一篇发布于 tryolabs 的文章,作者 Javier Couto 针对 2017 年基于深度学习的自然语言处理研究进行了大盘点。AI 科技评论根据原文进行了编译。

在过去的几年里,深度学习(DL)架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步。然而在最开始的时候,深度学习在自然语言处理(Natural Language Processing, NLP)领域的效果一般,但是现在已经被证实深度学习在自然语言处理领域依然能够发挥巨大的作用。并且在一些常见的自然语言处理任务中,基于深度学习的方法已经取得了最佳的结果。神经网络模型在诸如命名实体识别(Named entity recognition, NER)、词性标注(Part of speech tagging)和情感分析(Sentiment analysis)等任务中的表现已经超越了传统方法,另外在机器翻译上的进步也许是最明显的

在这篇文章中,我将细数 2017 年里基于深度学习技术的自然语言处理所取得的一些进步。另外由于实在是存在着太多的相关论文、框架和工具,所以我并不打算进行详尽的介绍。我只是想和大家分享一下今年产出的我所喜欢的工作,而且我认为 2017 年自然语言处理领域取得的成绩斐然。今年深度学习在自然语言处理领域研究中的应用不断扩大,并且在某些情况下取得了惊人的结果,所有这些迹象都在表明这一应用正方兴未艾。

一、从训练 word2vec 到使用预训练模型

词嵌入(Word embeddings)可以说是自然语言处理众多任务中与深度学习相关的且最广为人知的一项技术。该技术遵循 Harris ( 1954 ) 的分布假说(Distributional hypothesis),根据这个假说,那些具有相似含义的词汇通常出现在相似的语境中。关于词嵌入更详细的解释,我建议你去阅读这篇由Gabriel Mordecki 所写的文章(http://t.cn/RTHPMeI)。

分布词向量样例

诸如 word2vec ( Mikolov et al. , 2013) 和 GloVe ( Pennington et al. , 2014 ) 等算法已经成为该领域的先驱,虽然它们并不能算作深度学习(word2vec 中的神经网络很浅,而 GloVe 则实现了一个基于计数的方法),但是通过这些方法训练出来的模型却在许多的基于深度学习的自然语言处理算法中被作为输入数据而使用。总之,在自然语言处理领域使用词嵌入已经几乎成了行业准则,并且确实带来了很好的实践效果。

一开始,对于一个需要词嵌入的特定自然语言处理问题,我们倾向于从一个领域相关的大型语料库中训练自己的模型。当然,这样使用词嵌入还不够平民化,因此慢慢地便出现了预训练模型。这些模型经过维基百科、推特、谷歌新闻等数据的训练,可以让你轻松地将词嵌入整合到自己深度学习算法中。

今年证实了预训练词嵌入模型仍然是自然语言处理中的一个关键问题。比如说,来自 Facebook 人工智能研究实验室(Facebook AI Research, FAIR)的 fastText 发布了支持 294 种语言的预训练(词)向量,这对我们的社区而言是一项伟大的工作和贡献。除了支持大量的语言之外,fastText还使用了字符 n 元语法(n-grams)作为特征。这样使得 fastText 能够避免出现超出词汇量(Out of Vocabulary, OOV)的问题,因为即使是一个非常罕见的单词也可能与一些更为常见的词汇共享某些字符 n 元语法。从这个意义上来说,fastText 比 word2vec 和 GloVe 表现得更好,而且针对小型数据集而言,fastText 的表现更是超越了它们

虽然我们确实见证了这个领域所取得的进步,但是我们依然还有许多工作需要去完成。比如说,spaCy 是一个非常伟大的自然语言处理框架,它以原生的方式将词嵌入和深度学习模型集成到了命名实体识别和依赖分析(Dependency Parsing)等任务中,并且允许用户更新模型或者使用自定义模型。

依我拙见,将来将会出现许多针对某一特定领域的预训练模型(比如,生物学、文学、经济等),这些模型能够很方便地在自然语言处理框架上进行使用。而在我们的日常使用中,最容易实现也是最锦上添花的功能,可能就是支持对模型的微调(fine-tuning)。同时,适应性词嵌入(Adapting word embedding)方法也开始出现。

以下文章还有 5663 字,主要内容包括:

二、调整通用嵌入(Generic embeddings)模型适配特定用例

三、不可思议的副作用——情感分析

生成极性偏见(Polarity biased)的文本

四、Twitter 上的情感分析

情感评估(SemEval) 2017

BB_twtr 系统

五、一个令人兴奋的摘要生成系统

内部注意力策略

强化学习

优异的结果

六、迈向无监督学习机器翻译的第一步

七、专门的框架与工具

八、其它想法

本文来自企鹅号 - AI科技评论媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

成为数据科学家,需具备这些技能

15020
来自专栏新智元

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

这是 Quora 的最新节目,针对特定话题进行系列的问答。如果你不了解 Quora,可以把它看作美国版的知乎,不过里面大咖云集,奥巴马、Elon Musk、Bi...

30350
来自专栏AI科技评论

干货 | AI 大行其道,你准备好了吗?—谨送给徘徊于是否转行 AI 的程序员

AI 科技评论按:本文作者章华燕, 金桥智慧科技算法工程师。本文原载于个人博客,AI 科技评论获得授权转载。 前言 近年来,随着 Google 的 AlphaG...

26830
来自专栏机器学习算法工程师

AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言   近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 G...

34890
来自专栏机器学习算法与Python学习

一篇文章讲清楚人工智能、机器学习和深度学习的区别与联系

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 人工智能的浪潮正在席卷全球,诸多词汇...

46770
来自专栏CSDN技术头条

【真·干货】你务必要搞清楚的十大数据挖掘知识点

数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结...

12630
来自专栏ATYUN订阅号

AI可自动跟踪和标记移动中动物的身体部位

哈佛大学的研究人员和学术界研究者合作开发了一种名为DeepLabCut的深度学习方法,可以自动跟踪和标记移动中动物的身体部位,具有可与人类匹敌的准确性。

22930
来自专栏AI科技大本营的专栏

AI是万能的吗?当前AI仍面临的难题是什么?

【导读】谈到人工智能(特别是计算机视觉领域),大家关注的都是这一领域不断取得的进步,然而人工智能到底发展到什么程度了?AI 已经成为万能的了吗?Heuritec...

11620
来自专栏AI科技评论

学界 | 旷视、中科院在生物特征识别领域都有哪些研究成果?

中国图象图形学学会围绕「生物特征识别」这一主题,在中科院自动化所成功举办了第四期「CSIG 图像图形学科前沿讲习班」。

12930
来自专栏AI研习社

传统程序员要不要转行到AI?看完本文思路更清晰

前言 近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是...

37940

扫码关注云+社区

领取腾讯云代金券