论文题目:Image Captioning with Semantic Attention
论文作者:Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, Jiebo Luo.
论文链接:https://arxiv.org/abs/1603.03925
代码:https://github.com/magic282/NeuSum
来源:CVPRL 2016
分类:多模态 / NLP / Image Caption
太长不看版
本文提出了一种新的图像描述Image Caption算法,使用语义attention,融合了两种常见方法。
使用自底向上的方法检测语义概念或属性作为注意力的候选对象,并使用自顶向下的视觉特性来做attention,指导应该在何时何地激活注意力。
并达到了 MS-COCO / Flickr30k 数据集的 state-of-the-art。
主要思想
Image Caption 任务连接了计算机视觉和自然语言处理两个主要的人工智能领域。现有的方法有两种,一种是自顶向下的,即从图像的要点开始(例如图像中的实体区域),然后将其转换成文字;另一种是自底向上的,即用文字描述图像的各个要点,然后将它们组合起来。
本文提出一种新的算法,通过 Semantic(语义) Attention 将自顶向下与自底向上的两种方式融合起来,有选择地关注 semantic concept proposals,并将它们融合成隐层和递归神经网络的输出。选择和融合形成一个反馈,连接自顶向下和自底向上的计算。并达到了 Microsoft COCO 和 Flickr30K数据集上的目前的 state-of-the-art。
问题定义
目前的state-of-the-art 是自顶向下的模式,在这种模式中,从图像到句子的端到端模型是基于递归神经网络的,而网络的所有参数都可以从训练数据中获得。自顶向下的一个限制是很难注意到图像中可能重要的细节。
自底向上的方法不会遇到这个问题,因为它们可以自由地操作任何图像的分辨度。但这种方法也面临着其他问题,比如缺乏一个从单个实体到句子的端到端的流程。所以我们考虑到:有没有可能将这两种范例的优点结合起来?
在本文中,我们提出了一种新的方法,通过 Semantic(语义) Attention模型将自顶向下和自底向上两种方法结合起来。
Semantic(语义) Attention 具有以下特征:
1)能够注意到图像中的、语义上重要的概念或感兴趣的区域;
2)能够权衡对多个概念的 attention 的相对强度;
3)能够根据任务状态动态切换概念间的注意力。
具体来说,我们使用自底向上的方法检测语义概念或属性作为注意力的候选对象,并使用自顶向下的视觉特性来指导应该在何时何地激活注意力。
模型结构
图1 展示了本模型框架
对于给定的图像,使用CNN来提取自顶向下的视觉特征,同时检测视觉概念(区域、对象、属性等)。
利用语义注意力模型,将视觉特征与视觉概念结合起来,利用RNN来生成图像标题。
图2 展示了本模型计算流程
图中:
v:image feature,由 GoogleNet CNN 卷积得到;
AttrDet 1 ~ AttrDet N:由 Microsoft COCO 的数据集中训练得到attribute detectors;在Flickr30k的实验时重新搭建了并训练了attribute detectors;选出top 10的实体或属性。
本文提出了三种不同的获得 attribute 的方法:
1、一种无参数的方法 (k-NN)
除了检索到的属性外,我们还训练了参数度量模型来提取可视属性。我们首先通过从训练数据的标题中选择最常见的单词来构建一组固定的可视属性。属性被视为一组预定义的类别,可以像传统的分类问题那样学习。
2、有参数模型,trained with ranking-loss (RK)
3、fully-connected network (FCN).
这两种方法都在图像和视觉属性之间生成一个相关性评分,该评分可用于选择排名最高的属性作为标题模型的输入。
可能存在比上述两种模型潜在地产生更好结果的替代方法,而这两种模型不在本文的讨论范围之内。
数据构建
数据集及大小:
Flickr30k :31, 783 images
MS-COCO :123, 287 images.
评价指标:BLEU, Meteor, Rouge-L and CIDEr
实验结果:
关于图片中识别出的实体属性的作用分析:
左边的六个例子(绿色实线框)显示了可视化属性有助于生成更准确的标题。
右边的两个例子(红色虚线框)表明不正确的视觉实体属性可能会误导模型。
结论
本文提出了图像描述生成任务的一种新的方法,实现了state-of-the-art。
不同于以往的工作的是,本方法结合了自顶向下和自底向上的策略,从图像中提取更丰富的信息,并将其作为语义attention与RNN相结合,该RNN可以选择性地关注从图像中检测到的丰富的语义属性。
我们的方法不仅利用了对输入图像的全面了解,而且还利用了丰富的精细的视觉语义。我们模型的真正力量在于它能够关注这些方面,并无缝地融合全局和局部信息以获得更好的描述。
下一步,我们计划对基于短语的视觉属性及其分布式表示进行实验,并为我们提出的语义注意机制探索新的模型。
译者:西柚媛
编辑:西柚媛
本文来自程序媛驿站,未经授权不得转载.