AI技术讲座精选:NLP 模型到底选 RNN 还是 CNN?

【AI100 导读】本文系统地对比了 CNN 和 RNN 在 NLP 各大任务上的表现,包括:情感分类、关系分类、文本蕴含、答案选择、问题关系匹配、PQA、词性标注等。RNN 在大部分任务上都表现的更好,除了在关键词匹配和识别这类任务不如 CNN。这篇文章有很多不错的结论,值得一读!

摘 要

深度神经网络(DNNs)的出现使得自然语言处理领域(NLP)发生了翻天覆地的变化。卷积神经网络(CNN)和循环神经网络(RNN)是深度神经网路(DNN)的两种主要的架构类型,目前正在大范围的研究当中,用于处理各种各样的 NPL 任务。CNN 的特点是善于抽取位置不变特征,而 RNN 的特点是善于按序列对单元进行建模。目前很多最先进的 NLP 任务之所以不断切换模型,就是因为 CNN 和 RNN 之间特点的差异性。本文是第一篇基于各种各样典型的 NLP 任务来系统的比较 CNN 和 RNN 的文章,旨在为用户选择 DNN 架构类型的时候提供基本性的指导。

简 介

自然语言处理(Natural Language Processing,简称 NLP)的发展得益于深度神经网络(Deep Neural Networks,简称 DNN)的复苏,因为 DNN 不仅性能高且需要的设计性特征少。DNN 有两个主要的架构:卷积神经网络(Convolutional Neural Network,简称 CNN)(LeCun et al.,1998)和循环神经网络(Recurrent Neural Network,简称 RNN)(Elman, 1990)。闸门机制的进步缓解了基础 RNN 的一些限制,最终形成两种主流的 RNN 类型:长短型记忆(Long Short-Term Memory,简称 LSTM)(Hochreiter and Schmidhuber,1997)和循环门单元(Gated Recurrent Unit,简称 GRU)(Cho et al., 2014)。

一般来说,CNN 是分层架构,RNN 是连续结构。在处理语言的任务上,我们怎么去选择呢?基于它们的特性“分层(CNN) vs. 连续(RNN)”,我们倾向于为分类类型的任务选择 CNN,例如情感分类,因为情感通常是由一些关键词来决定的;对于顺序建模任务,我们会选择 RNN,例如语言建模任务,要求在了解上下文的基础上灵活建模。这一结论非常明显,但是目前的 NLP 文献中并没有支持性的文章。例如,RNN 在文本级别的情感分类表现得很好(Tang et al., 2015);而最近 Dauphin 等人(2016)则表示:尽管 LSTM 一直被视为更合适的选择,但是封闭的 CNN 在语言建模任务上同比 LSTM 更胜一筹。总之,在对特定的 NLP 问题的 DNN 选型上,大家还没有达成共识。

本文将对 CNN、GRU 和 LSTM 在很多门类的 NLP 任务上进行系统的对比,诸如:情感/关系分类、文本含义、答案选择、在 Freebase 上做问题关系匹配、 Freebase 上的答疑路径以及词性标注。

我们的实验支持两个重要的发现。(i)CNN 和 RNN 为文本分类任务提供补充信息。至于哪个架构的执行效果更好一点,取决于对整个序列的语义理解的重要程度。(ii)学习速率的变化相对平稳,而隐藏层尺寸(hidden size)和批尺寸(batch size)则会引起很大的波动。

结 论

本篇文章比较了3个使用最广泛的 DNN——CNN、GRU 和 LSTM——它们是 NLP 任务中具有代表性的样本。我们发现 RNN 表现较好并且在大范围内的任务中都较为稳健,除了以下种情况:当前的任务本质上是一项在一些情感探测和问答匹配设置中识别关键词的任务。另外,隐藏层尺寸和批尺寸会使 DNN 的性能变得非常不稳定。由此表明,如果想要获得性能良好的 CNN 和 RNN,那么对这两个参数的优化将是非常重要的。

【回复关键词 “CNN与RNN” 下载原文】

本文由 AI100 编译,转载需得到本公众号同意。


编译:AI100

原文链接:https://arxiv.org/pdf/1702.01923.pdf


原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-02-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏绿巨人专栏

强化学习总结

3657
来自专栏新智元

CMU:深度学习自然语言处理,神经机器翻译与 seq2seq 模型汇总,6 大类型附部署技巧

【新智元导读】CMU 语言技术研究所助理教授 Graham Neubig 将有关神经机器翻译和 seq2seq 各种模型的概要、重点以及部署技巧整理为一篇长达6...

3715
来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning

上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA。PLA能够在平面中选择一条直线将样本数据完全正确分类。而对于线性不可分的情况,可以使用Pocket...

2640
来自专栏人工智能

ML工作流程(第5部分) - 特征预处理

我们已经讨论了ML工作流程的前四个步骤。到目前为止,我们通过DICTR(离散化,积分,清理,转换,还原)对原始数据进行预处理,然后采用特征提取的方式将数据转化为...

2420
来自专栏人工智能头条

深度学习在自然语言处理中的应用

2294
来自专栏IT派

神经机器翻译之全并行文本生成技术

在过去的几年里,随着技术的飞速发展,神经网络推动了自然语言任务在准确性和质量方面的快速提高,如文本分类和问题回答等。而其中由深度学习带来的一个令人印象深刻的领域...

3494
来自专栏开心的学习之路

知识篇——聚类算法应用

时隔两月开始继续储备机器学习的知识,监督学习已经告一段落,非监督学习从聚类开始。 非监督学习与监督学习最大的区别在于目标变量事先不存在,也就是说 监督学习...

3805
来自专栏AI科技评论

干货 | 谷歌 AI:语义文本相似度研究进展

本文为雷锋字幕组编译的技术博客,原标题 Advances in Semantic Textual Similarity。

2224
来自专栏IT派

读懂概率图模型:你需要从基本概念和参数估计开始

概率图模型是人工智能领域内一大主要研究方向。近日,Statsbot 团队邀请数据科学家 Prasoon Goyal 在其博客上分两部分发表了一篇有关概率图模型的...

4224
来自专栏小石不识月

文本的词嵌入是什么?

词嵌入(Word embeddings)是一种单词的表示形式,它允许意义相似的单词具有类似的表示形式。

1.6K10

扫码关注云+社区

领取腾讯云代金券