ICCV 2019 | 马里兰&UC 伯克利共同提出：适应不断变化环境进行语义分割

AI科技评论

发布于 2019-09-29 14:36:37

5750

发布于 2019-09-29 14:36:37

文章被收录于专栏：AI科技评论

本文为读者投稿，投稿方式见文末。

作者 | BBuf

编辑 | 唐里

下面要介绍的论文发表于ICCV2019，题为「ACE: Adapting to Changing Environments for Semantic Segmentation」。

论文地址：

https://arxiv.org/abs/1904.06268v1

当深度神经网络在相同的数据分布上进行训练和测试时，它表现出了卓越的准确性。然而，当输入数据的分布随着时间改变的时候，神经网络分类器通常非常脆弱。本文提出了一个新的语义分割框架ACE，可以随时随地动态适应不断变化的环境。通过将原始的数据分布和移位后的数据分布进行对齐，ACE在新的数据分布中会自动合成用于当前数据分布中的新标签。同时，为了防止遗忘历史环境中的知识，论文引入了一个存储器来存储历史数据分布对应的特征统计信息。论文除了使用SGD优化模型，还尝试了基于自适应元学习的快速学习方法。论文在SYNTHIA数据集上做了大量测试，证明了该方法在解决多项任务时的有效性。ACE框架的整体结构如图Figure 1所示：

1. 研究背景

当计算机视觉系统在现实场景中部署时，不断变化的环境和不稳定的输入分布成为了重大挑战。例如，使用在晴天收集到的图像训练的深度神经网络可能在夜晚彻底失效。事实上，最近的研究表明深度神经网络即使是在输入分布有微小变化时也会表现出严重的不稳定性，更不用说在面对动态变化的信息流时。论文针对我们的一个具体任务语义分割，引入了ACE。这是一个可以自适应调整预训练的模型以适应顺序到达的新任务。特别的，对于一个新任务，我们使用一个数据生成器来对齐当前分布中的标签数据和原始数据分布中的标签。这会产生颜色，纹理等特征都和新任务的数据分布比较吻合的标签图像，然后就可以用新产生的标签训练新任务的数据。风格迁移是通过重新规范化原始图像的特征映射，使它们具有与目标图像匹配的一阶和二阶特征信息。最后，这些规范化的特征被送入一个生成器产生特定风格的图片。

ACE的一个亮点在于它可以终身学习。为了防止遗忘，ACE包含了一个用于存储不同风格的特征信息的紧凑且轻量的记忆单元。这些特征信息足以在不存储任何历史图像的情况下生成任意历史风格的图像，有效防止灾难性遗忘问题。整个生成和分割的框架可以使用SGD进行端到端的训练。最后，我们使用了自适应元学习，以便在遇到新环境时可以更加快速的适应。

2. 相关工作

2.1 无监督的域自适应

我们的工作涉及无监督的域自适应，旨在改善没有标签的情况下用之前训练好的模型测试新的数据分布的性能。当前存在一些方法，基本都是最小化原始数据和目标数据分布的距离，例如使用最大均值差异，协方差等明确指标，或者反向梯度，域混淆，对抗生成网络等隐式指标。

对于分割任务来讲，不同域的像素级图像转换需要让他们看起来是从同一目标刻画出来的，以减少纹理，光照的不一致。已经有一些论文提出了一些方法尝试解决这个问题。本论文的框架不同于之前的工作，因为这里是要自适应一系列的测试域而非单个域。此外，我们的方法也和一些对齐特征级别信息的分类任务相关，不过我们的关注点是像素级的特征信息对齐。

2.2图像合成

使用生成对抗网络(GAN)来进行图像合成越来越火，这种图像合成方式被认为是生成器和鉴别器之间的极大极小博弈。为了控制生成过程，加入了许多额外的信息如标签，文本，属性和图像等等。GAN还用于图像到图像转换的上下文中，其使用循环一致性或映射到共享特征空间将图像的样式转换为参考图像的样式。在不知道域的联合分布的情况下，这些方法试图从每个域中学习边际条件分布。然而，利用GAN生成高分辨率图像仍然困难且是密集计算型的。相比之下，神经网络风格迁移方法通常避免了生成模型的困难，简单地匹配特征统计Gram矩阵或执行通道独立的均值和方差对齐。ACE就在风格迁移的基础上，以当前任务的图像风格合成新的图像，同时保留原图像的语义信息。

2.3 终身学习

论文的工作和终身学习或者说持续学习相关，都是逐步学习并使用过去积累的知识适应新任务。大多数现有的工作都侧重于学习新任务时减轻灾难性遗忘。我们工作重点是如何无监督的自适应新任务的语义分割任务，每个新任务的图像分布与最初用于训练的图像分布不同。此外，为了避免忘记过去的知识，使用它们的特征信息来表征和编码对应风格。因为这种表示比原始图像小得多，所以框架是可扩展的。

2.4元学习

元学习，也称为学习如何学习，可以快速适应来自同一分布的新任务。元学习分为三类：（i）基于模型。(ii)基于度量。(iii)基于优化。现有的方法主要集中在少量小样本分类，回归和强化学习问题，而我们的方法侧重于如何有效地适应分割模型。

3. 方法

ACE的目标是使来自原始任务的分割模型适应多个顺序出现的具有不同图像分布的任务。该方法将标记的源图像转移到目标域中以创建用于分割模型的合成训练数据，同时记忆历史数据特征信息用于防止遗忘。我们用

表示原始任务，

表示顺序给定的

个目标任务。进一步，使用

代表原任务N个图片以及对应的标签。对于图片中的每个像素

，标签

代表一个one-hot编码的向量。我们把第i张图片表示为

，标签图表示为

，其中H和W代表图像长宽，C代表语义分割的分类数。再定义

代表第t个顺序出现的任务，其中包含和原始图像相同分辨率的

张图片。ACE包含4个关键组成部分：一个编码器，一个生成器，一个记忆单元，和一个语义分割网络。编码器网络将原始图片

转换为一个特征图表示

，在这里是512个特征图。生成器网络将特征图z转换为图像。目标图像的风格就用在生成器之前的特征向量的均值和方差来描述。记忆单元记住每一种风格图像的特征数据(1024值，就是512个特征图的均值和方差)。通过从记忆单元中检索相关数据风格的特征，将原图像的特征图重新规范化以具有相应的数据特征，然后将特征传给生成器创建图像，可以将源图像风格化为任何先前遇到的域中的图像。

ACE框架的大致结构如图Figure 2：

3.1 通过编解码和解码器合成图像

当一个新任务出现时，通过对源图像域进行风格迁移到目标图像域来获得标注好标签图像。为了做到这一点，我们联合训练了一个生成网络来产生风格化的图片，一个语义分割网络来对目标域图像进行分割。生成网络从提取一张图片的特征图开始，我们使用预训练的VGG19网络作为编码器，我们拿出relu4层的特征作为编码结果，编码器的权重在对图像