# Pyramid Scene Parsing Network
PSPNet 特点: * 场景标注 Scene parsing * 全局内容信息 global context information * different-regionbased context aggregation * pyramid pooling module * 像素级预测 pixellevel prediction tasks
场景识别,基于语义分割,其目标是对图像中的各像素分别分配一个类别标签,以对场景进行理解. 如Figure 1.
场景识别,主要利用 FCN 网络,存在的问题: - 物体外形相似 similar appearance of objects,especially considering diverse scenes and unrestricted vocabulary. - FCN 缺乏利用全局场景类别信息的策略 lack of suitable strategy to utilize global scene category clues —— Spatial pyramid pooling 和 Spatial pyramid pooling network 采用不同的空间信息来对场景整体理解.
PSPNet: - PSPNet 来提取合适的全部特征 - 将传统 dilated FCN 产生的像素级特征,扩展到 global pyramid pooling 特征. - 结合 Local 和 Global 信息进行最终的预测. - 提出 supervised loss 的优化策略,防止梯度发散.
基于以上三类问题, 提出 Pyramid Pooling Module 来有效获取全局上下文信息. - 深度网络中的接受野大小可以粗略的估计获取的上下文信息的多少. - 理论上,ResNet 的接受野大于输入图像;但实际上,CNN的接受野是比理论上要小的,尤其是在网络的 high-level 层. - Global average pooling(全局平均池化) 是一种较好获取全局上下文信息的方法 - Spatial pyramid pooling in deep convolutional networks for visual recognition 中,采用 pyramid pooling 得到的不同 levels 的 feature maps 转化为固定长度的一维特征表示,输入到全连接层,以进行分类任务. 该一维全局先验信息去除了CNN的固定尺寸约束. - 为了减少不同子区域的上下文信息损失,这里提出分层全局先验,包含了不同尺度和不同子区域的信息,即 pyramid pooling module,添加在深度网络的最后输出层的 feature maps. 如 Figure3(c).
pyramid scene parsing network (PSPNet) 网络结构如 Figure3. - 给定输入图片,采用 dilated 化的预训练的 ResNet 模型提取 feature map,得到的 feature map 的尺寸是输入图片的 1/81/81/8,如 Figure3(b); - 采用 pyramid pooling module 对提取的 feature map 进行处理,以收集上下文信息; - 4-level pyramid module 采用的 pooling kernel 分别覆盖了图片的整个区域、半个区域以及更小的区域,并进行特征融合. - 采用一个卷积层输出最终的预测结果,如 Figure3(d).
PSPNet 特点: - 能够有效的得到像素级场景标注的全局上下文信息, pyramid pooling module 集合不同 levels 的信息,比 global pooling 具有更好的特征表示能力了; - 计算代价与 dilated FCN 网络对比,并未增加; - End-to-end,同时对 global pyramid pooling module 和 local FCN feature 进行优化学习; - 监督 Loss,如 Figure4.