专栏首页NewBeeNLP【NLP保姆级教程】手把手带你RCNN文本分类(附代码)

【NLP保姆级教程】手把手带你RCNN文本分类(附代码)

继续之前的文本分类系列

【NLP保姆级教程】手把手带你CNN文本分类(附代码)

【NLP保姆级教程】手把手带你RNN文本分类(附代码)

【NLP保姆级教程】手把手带你fastText文本分类(附代码)

传统文本分类

之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?

传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。

1.1 特征工程

对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,比如词性标签、名词短语以及tree kernels等。

1.2 特征选择

特征选择旨在删除噪声特征,提高分类性能。最常见的特征选择方法比如去停词(例如,“The”)、信息增益、互信息或L1正则化等以选择有用的特性。

1.3 机器学习算法

机器学习算法常用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM)。然而,这些方法都存在数据稀疏问题。

RCNN论文概述

论文来自Recurrent Convolutional Neural Networks for Text Classification[1]

作者在论文中首先对比了传统文本分类算法与深度学习算法。

传统的特征表示方法往往忽略文本中的上下文信息或词序,对于捕捉词的语义仍然不满意。例如,在句子,A sunset stroll along the South Bank affords an array of stunning vantage points中,当我们分析“Bank”(unigram)这个词时,我们可能不知道它是指金融机构还是河旁。此外,“South Bank”(bigram),尤其是考虑到两个大写字母,可能会误导那些对伦敦不太了解的人,把它当作金融机构。当我们获得更大的上下文“stroll along the South Bank”(5-gram),我们就能很容易地辨别出它的意思。虽然高阶n-grams和更复杂的特性(如树内核)被设计用于捕获更多的上下文信息和单词序列,但它们仍然存在数据稀疏问题,这严重影响了分类的准确性。近年来,经过预先训练的word embedding和深层神经网络的快速发展,给各种NLP任务带来了新的启发。word embedding是单词的一种分布式表示,极大地缓解了数据稀疏问题(Bengio et al. 2003)。预先训练的词嵌入可以捕捉有意义的句法和语义规律性。

接着对目前应用较为广泛的深度学习框架算法进行了综述:

  • Socher et al 提出递归神经网络(RecursiveNN),在构建句子表示方面已被证明是有效的。然而,递归通过树结构捕获了一个句子的语义。它的性能很大程度上取决于文本树结构的性能。此外,构造这样一种文本树的时间复杂度至少为
O(n^{2})

,其中n为文本的长度。当模型遇到长句或文档时,这将是非常耗时的。此外,两个句子之间的关系很难用树结构来表示。因此,递归不适合对长句或文档建模。

  • 另一种模型,循环神经网络(RNN),模型时间复杂度为
O(n)

。该模型通过逐字分析一个文本单词,并将所有先前文本的语义存储在一个固定大小的隐藏层中。RNN的优点是能够更好地捕捉上下文信息。这可能有利于捕获长文本的语义。然而,RNN是一个有偏倚的模型,在这个模型中,后面的单词比先前的单词更具优势。因此,当它被用于捕获整个文档的语义时,它可能会降低效率,因为关键组件可能出现在文档中的任何地方,而不是最后。为了解决偏置问题,我们引入了卷积神经网络(CNN),将一个不带偏见的模型引入到NLP任务中,它可以很好地确定文本中带有最大池化层的识别性短语。因此,与递归或循环神经网络相比,CNN可以更好地捕捉文本的语义。CNN的时间复杂度也是O(n)。然而,以前对CNNs的研究倾向于使用简单的卷积核,如固定窗。使用这样的内核时,很难确定窗口大小:小窗口大小可能导致一些关键信息的丢失,而大的窗口会导致巨大的参数空间(这可能很难训练)。因此,它提出了一个问题:我们能否比传统的基于窗口的神经网络学习更多的上下文信息,更准确地表示文本的语义。

为了解决上述模型的局限性,作者们提出了一个循环卷积神经网络(RCNN),并将其应用于文本分类的任务。首先,我们应用一个双向的循环结构,与传统的基于窗口的神经网络相比,它可以大大减少噪声,从而最大程度地捕捉上下文信息。此外,该模型在学习文本表示时可以保留更大范围的词序。其次,使用了一个可以自动判断哪些特性在文本分类中扮演关键角色的池化层(max-pooling),以捕获文本中的关键组件。模型结合了RNN的结构和最大池化层,利用了循环神经模型和卷积神经模型的优点。此外,模型的时间复杂度为O(n),它与文本长度的长度是线性相关的。

RCNN模型框架

如下图是作者提出的模型框架,输入是一个文本D,它可以看成是由一系列单词(W1,W2,,,Wn)组成的。输出是一个概率分布,最大的那个位置对应文章属于的类别K。

接下来我们来仔细分析一下框架训练的过程。

Word Representation Learning

为了更准确地表达单词的意思,作者使用了单词本身和其上下文来表示这个词。在论文中,使用双向循环结构来实现。使用

c_{l}(w_{i})

来定义词

w_{i}

左边的文本,

c_{r}(w_{i})

来定义词右边文本。这里

c_{l}(w_{i})

c_{r}(w_{i})

是长度为|c|的稠密向量。计算公式如下:

\begin{aligned} c_{l}\left(w_{i}\right) &=f\left(W^{(l)} c_{l}\left(w_{i-1}\right)+W^{(s l)} e\left(w_{i-1}\right)\right) \\ c_{r}\left(w_{i}\right) &=f\left(W^{(r)} c_{r}\left(w_{i+1}\right)+W^{(s r)} e\left(w_{i+1}\right)\right) \end{aligned}

以“A sunset stroll along the South Bank affords an array of stunning vantage points” 这句话为例分析,结合上图,Cl(W7)表示了“Bank”这个词左侧的上下文语义信息(即“stroll along the South ”),同理,Cr(W7)表示了“Bank”这个词右侧的上下文语义信息(即“ affords an array ...”)。据此,我们就可以定义单词Wi的向量表示:

\boldsymbol{x}_{i}=\left[\boldsymbol{c}_{l}\left(w_{i}\right) ; e\left(w_{i}\right) ; c_{r}\left(w_{i}\right)\right]

循环结构可以在文本的向前扫描时获取所有的Cl,在反向扫描时获取所有的Cr。时间复杂度为O(n)。当我们获得了单词Wi的表示Xi后,我们将一个线性变换与tanh激活函数一起应用到Xi,并将结果传递到下一层。

\boldsymbol{y}_{i}^{(2)}=\tanh \left(W^{(2)} \boldsymbol{x}_{i}+\boldsymbol{b}^{(2)}\right)

y是一个潜在的语义向量,每一个语义因素都将被分析,以确定代表文本的最有用的因素。

Text Representation Learning

上面部分是单词的表示,那么怎么来提取文本的特征表示呢?作者在这里使用了CNN,当前面所有的单词表示y都计算出来以后,接上一个max-pooling层

\boldsymbol{y}^{(3)}=\max _{i=1} \boldsymbol{y}_{i}^{(2)}

这里的max函数是一个按元素max的函数,也就是说,前一步单词表达得到的y是一个n维向量,这一步y的第k个元素是上一步y的所有向量的第k个元素的最大值。池化层将不同长度的文本转换为固定长度的向量。通过使用池化层,我们可以在整个文本中捕获信息。还有其他类型的池层,比如平均池层(Collobert et al. 2011)。这里不使用平均池,因为这里只有几个单词和它们的组合对于捕获文档的含义非常有用。在文档中,最大池化层试图找到最重要的潜在语义因素。

模型的最后一部分是输出层:

\boldsymbol{y}^{(4)}=W^{(4)} \boldsymbol{y}^{(3)}+\boldsymbol{b}^{(4)}

最后对y应用softmax得到概率:

p_{i}=\frac{\exp \left(\boldsymbol{y}_{i}^{(4)}\right)}{\sum_{k=1}^{n} \exp \left(\boldsymbol{y}_{k}^{(4)}\right)}

代码实现

也是一样的根据论文构建RCNN网络....

不想贴了,要不大家还是一样直接后台自取吧

「完整代码可以在公众号后台回复"RCNN"获取。」

本文参考资料

[1]

Recurrent Convolutional Neural Networks for Text Classification: https://dl.acm.org/doi/10.5555/2886521.2886636

- END -

本文分享自微信公众号 - NewBeeNLP(NewBeeNLP),作者:kaiyuan

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 预训练模型中的可插拔式知识融入——利用Adapter结构

    这些天冲浪?了一下Arxiv,粗翻了一下二月之后public的NLP文章(有很大一部分是准备投ICML的)。也拜读了张驰原dalao的新作《Exploring ...

    kaiyuan
  • LINE:不得不看的大规模信息网络嵌入

    和DeepWalk一样,今天介绍的论文同样是做网络嵌入表示的,但还是有很大区别的。关于DeepWalk,我们已经在之前文章介绍,戳:DeepWalk:图网络与N...

    kaiyuan
  • 微软ALUM:当语言模型遇到对抗训练

    本文把对抗训练用到了预训练和微调两个阶段,对抗训练的方法是针对embedding space,通过最大化对抗损失、最小化模型损失的方式进行对抗,在下游任务上取得...

    kaiyuan
  • 文本挖掘 – Text mining

    文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。

    easyAI
  • 浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

    【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting...

    Amusi
  • 锚文本具体有那些作用?

    很多人都知道锚文本,但是很多人都不确切锚文本究竟改看看,一般做锚文本分为车站内做锚文本和站外锚文本,锚文本只不过是链接的一种方式,那么明确锚文本有那些作用呢?上...

    小白程序猿
  • 海量短文本场景下的去重算法

    在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担...

    腾讯QQ大数据
  • CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割

    选自arXiv 作者:Pengyuan Lyu等 机器之心编译 参与:Nurhachu Null、李泽南 在计算机视觉的应用场景里,对图像中的文本进行准确识别是...

    机器之心
  • 德企开发出基于人工智能的新型文本分析技术

    新闻门户网站和社会媒体都含有丰富的信息资源,例如对股票市场趋势的预测信息。如今,很多服务提供商允许通过向其搜索引擎输入描述性关键字来搜索大量的文本集。然而关键词...

    人工智能快报
  • 【CSS/JS】如何实现单行/多行文本溢出的省略(...)--老司机绕过坑道的正确姿势

    写前端UI的朋友们也许都遇到过这样的问题:我们需要实现这样一个需求,在一个父级元素中隐藏一个可能过长的文本: 这个文本可能是单行的: ? 也可能是多行的: ? ...

    外婆的彭湖湾

扫码关注云+社区

领取腾讯云代金券