CVPR 2018文章解读——腾讯AI Lab

今天继续上次的话题,来认识下今天的主题——类人化标注:多样性和独特性图像标注。

该主要提出了一种全新的自动图像标注的生成式模型,名为多样性和独特性图像标注D2IA)。受到人类标注集成的启发,D2IA将产生语义相关,独特且多样性的标签。

  • 第一步,利用基于行列式点过程(DPP)的序列采样,产生一个标签子集,使得子集中的每个标签与图像内容相关,且标签之间语义上是独特的(即没有语义冗余);
  • 第二步,对DPP模型加上随机扰动得到不同的概率分布,进而可以通过第一步中的序列采样产生多个不同的标签子集。

利用生成对抗网络(GAN)来训练D2IA,在两个基准数据集上开展了充分的实验,包括定量和定性的对比,以及人类主观测试。实验结果说明,相对于目前最先进的自动图像标注方法,其提出的方法可以产生更加多样和独特的标签。

首先来看看多种方法的比较:

图1

注意,单个人工标注倾向于使用语义上不同的标记(参见图1(b)-(d),并且标记之间的语义冗余低于标注算法MLMG生成的标记之间的语义冗余(参见图1(f)。

最近研究了如何提高生成标记的语义区分性,该方法利用一个行列式点过程(DPP)模型来生成语义冗余较少的标记。在示例图像上运行此算法的标注结果如图1(g)所示。然而,与人类标注相比,这样的结果仍然缺乏一个方面见图1(e))。人类标注的集体注释也往往是多种多样的,包括更多的图像语义元素的标记。

于是,提出了一种新的图像标注模型,即多样化和清晰的图像标注(D2IA),其目的是通过学习多个人工标注者生成的标记模型来提高图像标记的多样性和独特性。这种差异性使得同一子集中的标记之间的语义冗余程度较小,而多样性则鼓励不同的标记子集覆盖不同的图像内容的不同方面或不同的语义层次

特别地,该生成模型首先将图像特征向量和随机噪声向量的级联映射为相对于所有候选标记的后验概率,然后将其合并到一个确定性点过程(DPP)模型中,通过顺序抽样生成一个不同的标记子集。利用同一幅图像的多个随机噪声向量,对多个不同的标记子集进行采样。

主要框架如下图2所示:

图2 D2IA-GAN模型

D2IA-GAN模型的一个特点是它的发生器包含一个采样步骤,它不容易直接使用基于梯度的优化方法进行优化。在强化学习算法的启发下,提出了一种基于策略梯度(PG)算法的方法,用可微策略函数(神经网络)对离散采样进行建模,并设计奖励以鼓励生成的标记子集尽可能接近图像内容。将策略梯度算法应用于D2IA-GAN的训练中,可以有效地获得基于图像的标签生成模型。


这项工作的主要贡献其实有四个方面:

  • (1) 提出了一种新的图像标注方法,即不同的图像注解器(D2IA),为图像创建相关的、清晰的、多样的标注,与不同的人类标注者为同一图像提供的标记更相似;
  • (2) 将该问题转化为学习一个基于图像内容的标签概率生成模型,该模型利用DPP模型来保证显著性,并进行随机扰动以改善生成标签的多样性;
  • (3) 生成模型采用了我们称之为D2IA-GAN的专门设计的GAN模型进行逆训练;
  • (4) 在D2IA-GAN的训练中,采用策略梯度算法对生成模型中的离散采样过程进行处理。

最后,对ESP游戏IAPRTC-12图像注释数据集进行了实验评估,并对生成的标签的质量进行了基于人工注释器的主要研究。评价结果表明,D2IA-GAN产生的标注集与先进方法产生的标注集相比,更加多样化和清晰。

  • Weighted semantic paths

加权语义路径基于所有候选标签的语义层次和同义词构造加权语义路径。为了构造加权语义路径,将每个标签视为节点,同义词合并为一个节点。然后,从语义层次中的每个叶节点开始,连接它的直接父节点并重复这个连接过程,直到根节点实现。

在这个过程中访问的所有标签形成叶标签的加权语义路径。在语义路径中每个标签的权重与节点层成反比(层数从叶节点处的0开始)和每个节点的后代数。因此,具有更多指定信息的标签的权重将更大。具体如图3所示:

  • Diverse and distinct tag subsets

给定图像I及其真实语义路径spi,如果没有从同一语义路径中采样标记,则标记子集是不同的。图3显示了一个不同标记子集的示例。

  • Conditional DPP

使用一个条件行列式点过程(DPP)模型来测量标记子集T的概率,它是从给定的图像I的特征X的真实集T导出的。


D2IA-GAN模型

给定一个图像I,目标是生成一个包含多个与图像内容相关的不同标记子集的不同标记集,以及这些不同子集的一个集合标记子集,这些标记子集可以提供对I的全面描述。这些标记是从以图像为条件的生成模型中采样的,使用一个条件GAN(CGAN)来训练它。

注:生成和判别模型如果有兴趣,可以在文中详细解读。

主要讲解下条件GAN!

  • Conditional GAN
  • Optimizing gθ(优化g θ)

给定Dη,通过以下方法学习gθ:

然后,将[−1,1]中的一个实例化z表示为如下形式:

激励函数R(I,Tg-i)鼓励i的内容和标签Tg保持一致,定义为:

与Full PG目标函数相比,在之前公式中,用即时激励R(I,Tg-i)代替了return,用分解的似然代替了策略概率:

在训练过程中产生Tg时,多次重复采样过程以获得不同的子集。然后,由于每个训练图像的ground-truth值集SDD−i都可用,则可以计算每个生成子集的语义F1−sp评分,并且使用最大的F1−sp得分来更新参数。这个过程鼓励模型生成与评估度量更一致的标记子集。

  • Optimizing Dη

然后,可以计算该公式关于η的梯度,并使用随机梯度上升算法和反向传播来更新η。


实验

  • ESP Game数据集结果
  • IAPRTC-12 数据集结果
  • Subject Study
  • ESP Game数据集
  • IAPRTC-12 数据集

总结

在次讲解中,主要提出了一种新的图像标注方法,称为多样性和清晰图像标注(D2IA),以模拟人工标注者产生的标记的多样性和独特性。D2IA是一种序列生成模型,该模型首先将图像特征合并到一个确定性点过程(DPP)模型中,该模型还编码加权语义路径,从该模型中通过采样生成一系列不同的标记。通过对带有随机噪声扰动的DPP模型进行采样,保证了生成的多个标签子集之间的分集性。另外,采用生成对抗网络(GAN)模型对生成模型D2IA进行训练,并采用策略梯度算法来处理D2IA中离散DPP采样带来的训练困难。实验结果和对基准数据集的人类研究表明,该方法生成的不同的标记子集能够提供比现有方法更全面的图像内容描述。

原文发布于微信公众号 - 计算机视觉战队(ComputerVisionGzq)

原文发表时间:2018-05-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

CNN超参数优化和可视化技巧详解

王小新 编译自 Towards Data Science 量子位 出品 | 公众号 QbitAI 在深度学习中,有许多不同的深度网络结构,包括卷积神经网络(CN...

52640
来自专栏SIGAI学习与实践平台

机器学习和深度学习中值得弄清楚的一些问题

SIGAI飞跃计划第一期已经进行4周了,在这4周的学习中,同学们提出了不少好问题。在这里,我们将每周直播答疑的问题进行筛选和整理,写成今天的公众号文章,供大家参...

12210
来自专栏企鹅号快讯

机器学习之白话adaboost元算法

阅读本文大约需要5分钟 作为(曾)被认为两大最好的监督分类算法之一的adaboost元算法(另一个为前几节介绍过的SVM算法),该算法以其简单的思想解决复杂的分...

20660
来自专栏ATYUN订阅号

27个问题测试你对逻辑回归的理解

逻辑回归可能是最常用的解决所有分类问题的算法。这里有27个问题专门测试你对逻辑回归的理解程度。 ? 1)判断对错:逻辑回归是一种有监督的机器学习算法吗? A)是...

52460
来自专栏计算机视觉与深度学习基础

目标检测算法:RCNN、YOLO vs DPM

以下内容节选自我的研究报告。 1. 背景 目标检测(object detection)简单说就是框选出目标,并预测出类别的一个任务。它是一种基于目标几何和统计...

50660
来自专栏计算机视觉战队

深度判别和共享特征学习的图像分类

秋雨思童年,落花念爱霖!一场秋雨的洗礼,让我们进入了真正能感觉得到的秋季。秋季是丰收的季节,不知朋友您收获如何?但是我相信您一定硕果累累,满载着各种成果、业绩和...

35170
来自专栏AI科技评论

干货 | 深度学习时代的目标检测算法

AI 科技评论按:本文作者 Ronald,首发于作者的知乎专栏「炼丹师备忘录」,AI 科技评论获其授权转发。 目前目标检测领域的深度学习方法主要分为两类:two...

64370
来自专栏大数据挖掘DT机器学习

梯度下降原理及Python实现

梯度下降算法是一个很基本的算法,在机器学习和优化中有着非常重要的作用,本文首先介绍了梯度下降的基本概念,然后使用Python实现了一个基本的梯度下降算法。梯度下...

36750
来自专栏智能算法

集成学习算法----Adaboost

1. Adaboost 算法思想 AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构...

35780
来自专栏机器之心

CVPR2018 | 海康、UCLA、北理联合提出3D DescriptorNet:可按条件生成3D形状,克服模式崩溃

选自arXiv 作者:Jianwen Xie等 机器之心编译 参与:Huiyuan Zhuo、刘晓坤 近日,海康威视、UCLA、北理工联合提出了新的模型 3D ...

353110

扫码关注云+社区

领取腾讯云代金券