一种端到端可训练周期CNN模型:根据自然语言陈述进行图像分割

【新智元导读】基于自然语言陈述进行语义图像分割是图像分割领域里的一个重要议题。本论文提出了一种端到端可训练周期卷积网络模型,这一模型可同时学习处理视觉与语言信息,并实现高质量的图像分割结果。

  • 原文标题:Segmentation from Natural Language Expressions
  • 来自:http://www.arXiv.org/

摘要

本文研究了一种基于自然语言陈述处理图像分割问题的新方法。这不同于传统的在一个预先定义的语义分类之上的语义分割,例如,对于句子“两个人坐在右边的长椅上”只需要分割为两个右边长椅上的人以及没有其他人站在或坐在另一条长椅上。以前适用于这一任务的处理方法都受限于一个固定的类别和/或矩形域。为对语言陈述进行像素式分割,我们提出了一种端到端可训练周期卷积网络模型,这一模型可同时学习处理视觉与语言信息。我们的模型利用一个卷积LSTM网络将指称语编码为一个向量表示,用一个全卷积网络从一幅图像中提取空间特征,并为目标物体输出一个空间响应图谱。我们在一个基准数据集上展示我们的模型可以从自然语言陈述中得到高品质的分割输出,且优于很多的基线处理方法。

引言

语义图像分割是计算机视觉的核心问题,通过卷积神经网络使用大量视觉数据集和丰富的语言表达,这一领域得到了重大的进步。尽管这些现有的分隔方法能够精确预测诸如“火车”或“猫”之类的查询种类的像素掩膜,但它们不能对更为复杂的查询,例如自然语言陈述“在汽车右侧穿黑色衬衣的两个人”,进行分割预测。

在这篇论文中我们处理了下面的问题:对于给定的一幅图像和一个自然语言陈述,我们希望能分割出涵盖陈述中所表述的视觉实体的相应区域。例如,如图1(d)所示,对于例句“穿蓝外套的人”,我们想预测到一个涵盖了中间两个穿蓝色外套的人的分隔,但并不包括另外两个人。这一问题与语义分割的核心计算机视觉问题相关,但并不相同(例如PASCAL VOC目标识别大赛的20个目标类)。

图1.不同于传统的语义图像分割和物体实例分割,我们根据自然语言陈述处理分割问题,如图所示。

于对一个预先确定的目标集或事物种类进行像素级的预测(图1,b),以及示例分割,并且附加地识别一个目标类中的不同示例(图1,c)。它也区别于独立于语言的前景分割,前景分割的目的是在前景(或最突出的)目标上生成一个掩膜。不同于如语义图像分割那样为图像中的每一个像素分配一个语义标签,本文的目的是对给定陈述中的视觉实体生成一个分割掩膜。与固定的一个目标集和事物种类不同,自然语言描述可能也包括了“黑”和“平滑”之类的形容词,“跑”之类的动词,“在右边”之类的空间关系,以及不同视觉实体之间的关系如“那个骑着一匹马的人”。

根据自然语言陈述对图像做分割有着广泛的应用,例如建立基于语言的人机交互来向机器人给出“拿起桌上苹果旁边的罐子”之类的指令。这里,重要的是能利用多词指称语来区别不同的物体实例,但相比于一个范围框,能得到精确的分割也很重要,尤其对于非网格对齐的物体(例如图2)。这对于交互式照片编辑同样有用,其中使用者可以用自然语言指示图像的特定区域或事物来进行处理,例如“涂掉穿红色衬衫的人”,或指示你饭菜的某部分来估计其中的营养,“两大块培根”,来决定是否要吃它。

图2.我们根据自然语言陈述进行分割的方法的流程框图

如第二部分所详细讲述的,先前适用于这一任务的方法仅限于在图像中框定范围框,并且/或者仅限于一个先验的固定种类集合。在本文中,我们提出了一种端到端可训练周期卷积网络模型,可以同时学习处理视觉和语言信息,并且为自然语言陈述所描述的目标图像区域生成分割输出,如图2所示。我们通过一个卷积LSTM网络将语言陈述编码进一个固定长度的向量形式,并利用一个卷积网络从图像中提取空间特征图谱。这一编码陈述与特征图谱之后通过一个多层分类网络以全卷积的方式进行处理,生成一个粗糙响应图谱,然后通过反卷积进行上采样来得到一个目标图像区域的像素级分割掩膜。在一个基准数据集上得到的实验结果显示,我们的模型根据自然语言陈述生成高质量的分割预测,并远优于基线方法。

相关研究(略)

模型建立(略)

实验过程(略)

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-05-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏有趣的Python

11- 深度学习之神经网络核心原理与算法-卷积核典型的CNN网络

2883
来自专栏AI科技评论

从模糊到清晰,AI对图片的识别越来越精准| Facebook CVPR2016最新论文

图像边缘的无监督学习 摘要 数据驱动方法在边缘检测领域已被证明是有效的,且在最近的基准测试中取得了顶尖的成绩。然而,目前所有数据驱动的边缘检测都要求以手工标注区...

43710
来自专栏人工智能头条

深度学习-LeCun、Bengio和Hinton的联合综述(上)

1152
来自专栏专知

【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰

【导读】近日,深度学习顶会ICLR2018评审结果出炉,得分最高的论文是 《Certifiable Distributional Robustness with...

5605
来自专栏机器之心

常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗

2614
来自专栏计算机视觉战队

哇~这么Deep且又轻量的Network,实时目标检测

最近挺对不住关注“计算机视觉战队”平台的小伙伴,有段时间没有给大家分享比较硬比较充实的“干货”了,在此向大家表示抱歉,今天抽空之余,想和大家说说目标的实时检测。

962
来自专栏机器之心

推翻剪枝固有观点?清华、伯克利提出NN过参数化真的不重要

在该论文 ICLR 2019 的双盲审评论区,论文「ThiNet」的一作 Jian-Hao Luo 和论文「通道剪枝」的一作 Yihui He 提出了修改意见。...

1103
来自专栏专知

【干货】机器学习基础算法之随机森林

【导读】在当今深度学习如此火热的背景下,其他基础的机器学习算法显得黯然失色,但是我们不得不承认深度学习并不能完全取代其他机器学习算法,诸如随机森林之类的算法凭借...

3527
来自专栏数据派THU

独家 | 25道SVM题目,测一测你的基础如何?(附资源)

在某种意义上,你可以把机器学习算法看作有很多刀剑的军械库。里边有各种各样的工具,你要做的,就是得学会在对的时间使用对的工具。举个例子,如果把“回归”看作是一把剑...

2312
来自专栏人工智能头条

在实践中正确应用机器学习的12条法则

2494

扫码关注云+社区

领取腾讯云代金券