胶囊网络(Capsule Network)在文本分类的探索

文本建模方法大致可以分为两类:(1) 忽略词序、对文本进行浅层语义建模(代表模型包括LDA,Earth Mover’s distance等;(2)考虑词序、对文本进行深层语义建模(深度学习算法,代表模型包括LSTM,CNN等)。对于深度神经网络算法,空间模式(spatial patterns)汇总在较低层,有助于表示更高层的概念(concepts)。例如,CNN卷积特征检测器提取来自局部的序列窗口的模式,并使用max-pooling来选择最明显的特征。然后,CNN分层地提取不同层次的特征模式。然而,CNN在对空间信息进行建模时,需要对特征检测器进行复制,降低了模型的效率。正如(Sabour et al, 2017)所论证的那样,这类方法所需复制的特征检测器的个数或所需的有标签训练数据的数量随数据维度呈指数增长。另一方面,空间不敏感的方法不可避免地受限于对丰富的文本结构(比如保存单词的位置信息、语义信息、语法结构等)进行有效地编码,缺乏文本表达能力。

最近,Hinton老师等提出了胶囊网络(capsulenetwork), 用神经元向量代替传统神经网络的单个神经元节点,以dynamic routing的方式去训练这种全新的神经网络,有效地改善了上述两类方法的缺点。正如在人类的视觉系统的推理过程中,可以智能地对局部和整体(part-whole)的关系进行建模,自动地将学到的知识推广到不同的新场景中。

然后到目前为止,并没用工作将capsule network应用于自然语言处理中(e.g.,文本分类) 。我们针对capsule network在文本分类任务上的应用做了深入研究。对于传统的分类问题,capsule network取得了较好性能(我们在6个benchmarks上进行了实验,capsulenetwork在其中4个中取得了最好结果)。更重要的是,在多标签迁移的任务上(fromsingle-label to multi-label text classification),capsulenetwork的性能远远地超过了CNN和LSTM。我们的工作已经发表在arxiv上,论文名为Investigating Capsule Networks withDynamic Routing for Text Classification。更多细节可以参考链接:https://arxiv.org/pdf/1804.00538.pdf。我们会在论文发表后公开源码。

文本主要研究胶囊网络在文本分类任务上的应用,模型的结构图如下:

其中,连续两个卷积层采用动态路由替换池化操作。动态路由的具体细节如下:

在路由过程中,许多胶囊属于背景胶囊,它们和最终的类别胶囊没有关系,比如文本里的停用词、类别无关词等等。因此,我们提出三种策略有减少背景或者噪音胶囊对网络的影响。

  1. Orphan类别:在胶囊网络的最后一层,我们引入Orphan类别,它可以捕捉一些背景知识,比如停用词。在视觉任务加入Orphan类别效果比较有限,因为图片的背景在训练和测试集里往往是多变的。然而,在文本任务,停用词比较一致,比如谓词和代词等。
  2. Leaky-Softmax:除了在最后一层引入Orphan类别,中间的连续卷积层也需要引入去噪机制。对比Orphan类别,Leaky-Softmax是一种轻量的去燥方法,它不需要额外的参数和计算量。
  3. 路由参数修正:传统的路由参数,通常用均与分布进行初始化,忽略了下层胶囊的概率。相反,我们把下层胶囊的概率当成路由参数的先验,改进路由过程。

在ablation test中,我们对改进的路由和原始路由方法进行对比,如下:

此外,为了提升文本性能,我们引入了两种网络结构,具体如下:

数据集:为了验证模型的有效性,我们在6个文本数据集上做测试,细节如下:

在实验中,我们和一些效果较好的文本分类算法进行了对比。由于本文的重点是研究capsule network相对已有分类算法(e.g., LSTM, CNN)是否有提升,我们并没用与网络结构太过复杂的模型进行对比。实验结果如下:

此外,我们重点进行了多标签迁移实验。我们将Rueter-21578数据集中的单标签样本作为训练数据,分别在只包含多标签样本的测试数据集和标准测试数据集上进行测试。详细的数据统计以及实验结果如下图所示。从表中我们可以看出,当我们用单标签数据对模型进行训练,并在多标签数据上进行测试时,capsule network的性能远远高于LSTM、CNN等。

此外,我们还做了case study分析,发现路由参数可以表示胶囊的重要性,并对胶囊进行可视化(此处我们主要可视化3-gram的结果)。具体来说,我们删除卷积胶囊层,将primary capsule layer直接链接到fully-connectedcapsule layer,其中primary capsule 代表了N-gram短语在capsule里的形式,capsule之间的连接强度代表了每个primary capsule在本文类别中的重要性(比较类似并行注意力机制)。由图我们可以看出,对于Interest Rate类别,months-interbank-rate等3- grams其着重要作用。

致谢: 感谢jhui和苏剑林,他们的文章启发了我们的工作。感谢naturomics和gyang274的开源代码,让我们开发过程变得高效。

https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/

https://spaces.ac.cn/archives/4819

https://github.com/bojone/Capsule

https://github.com/naturomics/CapsNet-Tensorflow

原文发布于微信公众号 - 腾讯知文(tencent_wisdom)

原文发表时间:2018-04-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

9 条评论
登录 后参与评论

相关文章

来自专栏人工智能

带你通俗易懂的理解人工智能算法一

我们所谓的人工智能算法就是一个机器嵌入了这个算法后,这个机器就拥有了人所具有的基本能力,比如观察、思考、学习、创造等,本文要说的就是这个算法。 人工智能算法主要...

2199
来自专栏深度学习

如何使用TensorFlow生成对抗样本

如果说卷积神经网络是昔日影帝的话,那么生成对抗已然成为深度学习研究领域中一颗新晋的耀眼新星,它将彻底地改变我们认知世界的方式。对抗学习训练为指导人工智能完成复杂...

4047
来自专栏GAN&CV

全面解读Group Normbalization-(吴育昕-何凯明)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/d...

593
来自专栏进击的程序猿

神经网络基础知识

我们可以调整参数/权重W,使得映射的结果和实际类别吻合,而损失函数用来来衡量吻合度。

702
来自专栏机器之心

学界 | 正在涌现的新型神经网络模型:优于生成对抗网络

选自Medium 作者:Alfredo Canziani等人 机器之心编译 参与:黄小天、吴攀 随着深度神经网络技术的发展,新型的网络架构也在不断涌现。普渡大学...

33210
来自专栏杨熹的专栏

一个 tflearn 情感分析小例子

学习资料: https://www.youtube.com/watch?v=si8zZHkufRY&list=PL2-dafEMk2A7YdKv4XfKpfb...

3816
来自专栏Deep learning进阶路

深度学习论文随记(三)GoogLeNet-2014年

深度学习论文随记(三)GoogLeNet Going Deeper with Convolutions Author: Christian Szegedy, ...

1970
来自专栏null的专栏

机器学习中的特征空间

声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若...

3426
来自专栏专知

【深度前沿】深度森林最新进展,南京大学周志华教授MLA2017解读,最新实验结果挑战深度学习

【导读】北京时间 11月5 日到11月6日,一年一度的“机器学习及其应用”(MLA)系列研讨会在北京交通大学开幕,西瓜书《机器学习》作者、南京大学机器学习与数据...

7384
来自专栏SimpleAI

【DL碎片5】一只蚊子告诉你,什么是正则化(Regularization)

从【DL笔记1】到【DL笔记N】以及【DL碎片】系列,是我学习深度学习一路上的点点滴滴的记录,是从Coursera网课、各大博客、论文的学习以及自己的实践中总结...

1102

扫码关注云+社区