Learning Object Interactions and Descriptions for Semantic Image Segmentation CVPR2017
本文主要是从训练数据的角度来提升CNN分割性能的。由于像素级别标记的样本很少,制作样本成本高。这里直接根据关键词从网络上搜索相关图像,建立了一个数据库 IDW, 结合 VOC12上面的训练数据联合训练,对此设计了一个 IDW-CNN 模型,经过联合训练得到的模型用于分割,性能提升比较大。
首先来看看这个IDW数据库的建立 IDW 和 VOC12 两个样本的对比
看看大家都是怎么使用额外的信息
Image Description Representation 根据图像在网络上语言描述信息提取用于分割的关键信息
IDW-CNN 网络结构示意图
IDW-CNN 首先使用 ResNet-101 提取特征,然后有两个 streams: 第一个 stream 用于预测初步分割结果,第二个 stream 用于估计 物体之间的相关性 object interactions。这里面有 21 object nets 和 22 action nets 每个 subnet 结构如上图 (b)所示
两个类别物体特征可以直接相加
训练过程也是逐步进行的。
最后的分割结果: