基于非常深的卷积神经网络用于文本分类

报告人:周晨星

论文题目:Very Deep Convolutional Networks for Text Classification

论文作者:Alexis Conneau, Holger Schwenk, Yann Le Cun, Lo¨ıc Barrault

论文来源:Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, pages 1107–1116, Valencia, Spain, April 3-7, 2017. c 2017 Association for Computational Linguistics

论文链接:http://www.aclweb.org/anthology/E17-1104

报告时间:2018.4.21 上午9:30

报告地点:中山大学数据科学与计算机学院楼A201

文本分类问题一直是文本领域(nlp)当中一个的热点的研究问题,所谓文本分类,指的是将一段文本(单词,句子,文档…)归入我们事先预定义的一个或者多个类别当中(主题,实体,情感…)而对于处理文本分类的问题,我们一般的流程图如下:

最关键的一部分就是在特征的提取上。而特征提取的方法有传统的基于统计的方法(TFIDF,N-grams…)以及机器学习的方法。而机器学习方法也可以分为传统的机器学习(SVM,LR)以及深度学习的方法(RNN,LSTM,CNN)。本文用的就是深度学习的方法。

而基于深度学习的文本分类的一般架构如下:

在第二层深度表示学习来解决文本问题的时候,可能大家会最先想到RNN,LSTM模型,因为它们可以学习到文本的上下文之间的信息,很适合用来处理文本问题。但是近两年来,有越来越多的人尝试用CNN来解决nlp问题。在15年的一篇NIPS的文章,作者用的就是CNN网络结构来实现文本分类,他设计了一个六层的卷积层,每一层卷积层使用多个filters,每个filter的size为3或者7。并且他只在其中的三层做了一个pooling的操作!

在当时的文本分类里边取得不错的效果。这其实得益于CNN的一些优势,它可以捕获文本中大量的局部信息,并且使用多个filters可以获得文本更多的特征。

但是由于网络结构浅,导致其只能获得文本浅层的信息,并且也无法获取文本中的全局的信息。因此,本文作者借鉴了最近在图像领域很出名的VGG和residual network网络结构,设计出了一个用来解决文本分类问题的深层的卷积神经网络。该网络将之前的6层卷积层增加到了29层,并且设计了一个叫卷积块的结构。该网络结构如下图所示:

网络的设计也是由三大块组成的。首先同15年那篇文章一样,作者采用字符级别作为文本的基本单位。用字符级别处理文本的好处是可以学习到单词的拼写错误问题,可以捕获词的形态上的信息等等。

在中间的深度卷积块层作者设计了一种卷积块的结构,该卷积块结构也就是由两层卷积层组成,并且在每层卷积层加上一个时域批标准化和RELU激活函数。作者一共设计了4种这样的卷积块,每种卷积块唯一的区别在于使用的特征图的数目不同,从64变成128变成256最后变成512,每种相同的卷积块在同一层,并且卷积块的个数可以自行设定。在一种卷积块变成另一种卷积块的时候,作者进行了一次下采样操作,采样长度为之前的一半。而采样的方法作者也实现了三种不同的采样方法。并在实验部分做了对比比较。在每一层卷积块之间作者加上了可以选择的shortcut。然后在最后一层卷积块之后就不再是采样长度减半的pooling操作,而是直接进行K-max pooling操作(K=8),最后将学习的特征进行全连接层进行特征综合然后进入softmax进行分类。

在实验部分,作者采用的数据集和15年那篇文章的数据集相同

数据集的大小由小到大,并且分类类别也不尽相同。最后获得的实验效果如下:

通过对比我们可以看出本文在大的数据集上的实验效果要更优于之前的实验结果。这也说明了深度卷积网络要优于之前的浅层的实验效果。

>>>>获取完整PDF下载

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180417G0Y7H100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券