ECCV18 | UC伯克利提出基于自适应相似场的语义分割

CV君

发布于 2019-12-27 15:02:51

5570

发布于 2019-12-27 15:02:51

本文来自于ECCV2018的论文《Adaptive Affinity Fields for Semantic Segmentation》，UC伯克利大学的研究人员提出了一种自适应相似场（Adaptive Affinity Fields ）来辅助语义分割的方法，增强了网络对目标结构推理的能力，取得了非常显著的性能提升，代码已开源。作者信息：

图像语义分割不仅仅是对图像每个像素的简单分类问题，在一些语义信息不明的像素区域，直接对像素分类往往难以奏效，所以基于目标结构推理的方法就变得很重要。近年来，语义分割问题（Semantic Segmentation）通过越来越强大的图像分类器，类似的结合条件随机场（Conditional Random Fields，CRF）或生成对抗网络（GAN）等结构先验模型而取得了许多进展。以条件随机场方法后处理为例，对网络预测的图像像素标签进一步根据原始像素值调整，以消除明显的视觉上相似但标签不一致的问题，改进了语义分割的结果。在这篇论文中，作者寻求将标签的结构推理直接引入网络建模中，提出一种更简单的替代方案，在训练期间教导网络验证分割的空间结构。与在单个像素上强制学习语义类别并在相邻像素之间匹配类别的现有方法不同，提出的自适应相似场（Adaptive Affinity Fields, AAF）的概念来匹配标签空间中的相邻像素之间的语义关系。

请看下图，直接使用Softmax对像素分类和引入结构推理的AAF方法的对比，在摩托车的透明挡风玻璃和车轮区域有明显的改善。

同时本文使用对抗性学习为每个语义类别选择最佳的亲和力范围。将此概念转化为一个极小极大的优化问题，利用最好的最坏情况学习(best worst-case learning)情境优化语义分割神经网络。

AAF算法仅在训练期间多了一些步骤，不需要额外的参数，也易于训练。

实验结果 AAF 将空间结构解析为以个别像素为中心关系的集合，比 CRF 或 GAN 都更容易训练且更有效。论文在PASCAL VOC 2012，Cityscapes 和 GTA5 等数据集上证明了AAF语义分割的优越性能和跨域的强大泛化能力。使用PSPNet作为基准模型，将AAF与其结合验证AAF的改进效果。为更有说服力、更全面的评估算法有效性，评价标准包括，pixel-wise mIoU、instance-wise mIoU、boundary detection metrics。