【新智元导读】基于自然语言陈述进行语义图像分割是图像分割领域里的一个重要议题。本论文提出了一种端到端可训练周期卷积网络模型,这一模型可同时学习处理视觉与语言信息,并实现高质量的图像分割结果。
摘要
本文研究了一种基于自然语言陈述处理图像分割问题的新方法。这不同于传统的在一个预先定义的语义分类之上的语义分割,例如,对于句子“两个人坐在右边的长椅上”只需要分割为两个右边长椅上的人以及没有其他人站在或坐在另一条长椅上。以前适用于这一任务的处理方法都受限于一个固定的类别和/或矩形域。为对语言陈述进行像素式分割,我们提出了一种端到端可训练周期卷积网络模型,这一模型可同时学习处理视觉与语言信息。我们的模型利用一个卷积LSTM网络将指称语编码为一个向量表示,用一个全卷积网络从一幅图像中提取空间特征,并为目标物体输出一个空间响应图谱。我们在一个基准数据集上展示我们的模型可以从自然语言陈述中得到高品质的分割输出,且优于很多的基线处理方法。
引言
语义图像分割是计算机视觉的核心问题,通过卷积神经网络使用大量视觉数据集和丰富的语言表达,这一领域得到了重大的进步。尽管这些现有的分隔方法能够精确预测诸如“火车”或“猫”之类的查询种类的像素掩膜,但它们不能对更为复杂的查询,例如自然语言陈述“在汽车右侧穿黑色衬衣的两个人”,进行分割预测。
在这篇论文中我们处理了下面的问题:对于给定的一幅图像和一个自然语言陈述,我们希望能分割出涵盖陈述中所表述的视觉实体的相应区域。例如,如图1(d)所示,对于例句“穿蓝外套的人”,我们想预测到一个涵盖了中间两个穿蓝色外套的人的分隔,但并不包括另外两个人。这一问题与语义分割的核心计算机视觉问题相关,但并不相同(例如PASCAL VOC目标识别大赛的20个目标类)。
图1.不同于传统的语义图像分割和物体实例分割,我们根据自然语言陈述处理分割问题,如图所示。
于对一个预先确定的目标集或事物种类进行像素级的预测(图1,b),以及示例分割,并且附加地识别一个目标类中的不同示例(图1,c)。它也区别于独立于语言的前景分割,前景分割的目的是在前景(或最突出的)目标上生成一个掩膜。不同于如语义图像分割那样为图像中的每一个像素分配一个语义标签,本文的目的是对给定陈述中的视觉实体生成一个分割掩膜。与固定的一个目标集和事物种类不同,自然语言描述可能也包括了“黑”和“平滑”之类的形容词,“跑”之类的动词,“在右边”之类的空间关系,以及不同视觉实体之间的关系如“那个骑着一匹马的人”。
根据自然语言陈述对图像做分割有着广泛的应用,例如建立基于语言的人机交互来向机器人给出“拿起桌上苹果旁边的罐子”之类的指令。这里,重要的是能利用多词指称语来区别不同的物体实例,但相比于一个范围框,能得到精确的分割也很重要,尤其对于非网格对齐的物体(例如图2)。这对于交互式照片编辑同样有用,其中使用者可以用自然语言指示图像的特定区域或事物来进行处理,例如“涂掉穿红色衬衫的人”,或指示你饭菜的某部分来估计其中的营养,“两大块培根”,来决定是否要吃它。
图2.我们根据自然语言陈述进行分割的方法的流程框图
如第二部分所详细讲述的,先前适用于这一任务的方法仅限于在图像中框定范围框,并且/或者仅限于一个先验的固定种类集合。在本文中,我们提出了一种端到端可训练周期卷积网络模型,可以同时学习处理视觉和语言信息,并且为自然语言陈述所描述的目标图像区域生成分割输出,如图2所示。我们通过一个卷积LSTM网络将语言陈述编码进一个固定长度的向量形式,并利用一个卷积网络从图像中提取空间特征图谱。这一编码陈述与特征图谱之后通过一个多层分类网络以全卷积的方式进行处理,生成一个粗糙响应图谱,然后通过反卷积进行上采样来得到一个目标图像区域的像素级分割掩膜。在一个基准数据集上得到的实验结果显示,我们的模型根据自然语言陈述生成高质量的分割预测,并远优于基线方法。
相关研究(略)
模型建立(略)
实验过程(略)