实时性分割的ICNet模型如何同时确保分割速度与准确度？

AI深度学习求索

发布于 2019-01-23 17:54:27

1.3K0

发布于 2019-01-23 17:54:27

文章被收录于专栏：AI深度学习求索

追求分割准确率和实时性之间平衡的ICNet模型

论文：ICNet for Real-Time Semantic Segmentation on High-Resolution Images

会议：ECCV2018

研究任务：本文设计的实时性分割模型ICNet可以在确保分割准确度的情况下保证分割的速度

为何要注重模型的实时性？

设计算法的目标不仅希望模型准确率更高，效果更好，也是为了可以在实际生活中应用，而实时性分割能够保证算法的应用落地，与准确度相比也一样重要！

模型在Cityscapes数据集上测试速度和分割mIOU准确率的比较图？

图解：

图中纵轴表示分割准确率，越往上，分割准确率越高，横轴表示分割的效率，越往右表示，分割效率越高，蓝线右侧表示模型已经达到实时性效果。由上图可以看出，比较出名的分割模型PSPNet和ResNet38模型，分割准确率高，但是效率不高，像实时性比较好的ENet分割效率高但是分割准确度还没有60%。

正是由于当前的模型没有综合考虑测试速度和分割准确率，本文希望设计ICNet解决这个问题，在保证分割准确率的同时提升分割速度。

分析影响模型速度的因素

定义卷积层中函数输入为：V(c,h,w)输出为：U(c',h',w')，其中c表示特征channels数目，h和w表示特征的尺寸。

则卷积操作复杂度为：

从公式中可以看出，模型中卷积层复杂度与模型输入的尺寸，卷积核的大小（一般为3，不分析），和channels数目有关。

channels数目和图片尺寸对模型速度的影响

分析下面这张图，不同的分辨率图片输入PSPNet50网络，观察每一个阶段的计算时间，由此，我们可以看出，模型中每层的复杂度同输入图像的分辨率和模型的channel数目有关，输入图片尺寸越大，卷积层channels数目越多，耗费时间越长。

ICNet模型

根据上面分析的影响模型复杂度的因素，我们设计了基于PSPNet模型的多分辨率输入ICNet模型，将图片按一定比例缩放为不同的尺寸，将最小尺度的图片输入复杂度最高的分割模型，将高分辨率图片输入低复杂度模型，通过特征融合以及label指导训练，得到比较好的分割结果。

ICNet网络结构

模型包括

（1）Cascade Image Input : 模型的输入数据，将原始图片按1/2,1/4比例缩放，同原尺寸图片一起输入模型的不同分值

（2）Cascade Label Guidance: 模型的监督信息，按不同比例缩放的Label

（3）Cascade Feature Fusion（CFF）：特征融合模块，融合不同分支，不同模块的特征

（4）上方：一个完整的PSPNet分割网络，输入尺寸最小的图片 --> 复杂度比较高

（5）中间：一系列卷积层，与上方部分网络共享网络参数，输入1/2的图片 --> 复杂度较低

（6）下方：通过3个卷积层对原尺寸图片进行下采样，再通过特征分类器对特征中每个像素进行分类 --> 复杂度较低

CFF模块

特征融合模块

输入：F1(上一层的特征)、F2(本层的特征)以及Label(特定比例的Label)

操作：

①将F1上采样2倍，通过1*1的卷积层更改channels数目，再与Label利用加权softmaxloss计算loss。

②将F1上采样2倍利用3X3的Conv(dialted rate=2)更改channels数目，通过BatchNorm；将F2通过1X1的Conv更改channels数目，再通过BatchNorm；将上面得到的两个特征通过element-wise 相加，再通过ReLU,输出F2'.

损失函数

从CFF模块中看到Loss的计算方法，计算公式如下：

每个分支均有相应的Label计算loss训练网络

结果

Cityscapes数据集下的结果

由结果可知，ICNet在分割准确度和运行效率之间取得了很好的平衡，达到了预期目标

分析

分析ICNet三个分支的作用，从左到右分别对应网络从上到下的分支

模型特点

（1）channels数目和输入特征的尺度影响卷积层的复杂度

（2）模型存在三个分支，对应不同复杂度的模型以及不同尺度的输入图片

（3）一个完整的PSPNet模型，和两个分支优化分割结果

（4）低分辨率图片输入复杂度较高的模型，高分辨率的图片输入复杂度较低的模型，综合减小模型复杂度

（5）相邻的分支的特征进行匹配融合

扩展：模型加速策略：

（1）Downsampling Input（下采样输入图片）

下采样图片输入尺寸，送入PSPNet50模型，直接上采样至原始尺寸，结果粗糙，遗失了一些很小但是重要的细节。图中scale为图片下采样比例，可以看出，输入尺寸越小，模型准确度越低，但运行速度越快。

（2）Downsample Feature

按1:8、1:16、1:32的比例下采样图片特征

（3）Model Compression

通过压缩卷积核，从而压缩模型

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-01-01，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

数据处理

本文分享自 AI深度学习求索微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据分析

数据处理

登录后参与评论

0 条评论

热度