学界 | 新型实时形义分割网络ShuffleSeg:可用于嵌入式设备

选自arXiv

作者:Mostafa Gamal等

机器之心编译

参与:Panda

表现优良的卷积神经网络往往需要大量计算,这在移动和嵌入式设备以及实时应用上是一个很不利的因素。近日,开罗大学和阿尔伯塔大学的研究者提出了一种能实现实时形义分割的框架 ShuffleSeg。这种方法能在保证分割准确度的同时显著降低对计算资源的需求。机器之心在本文中对该项目进行了简要编译介绍,相关研究的 TensorFlow 代码已发布在 GitHub 上。

  • 论文地址:https://arxiv.org/abs/1803.03816
  • 项目代码:https://github.com/MSiam/TFSegmentation

构建计算高效的卷积神经网络(CNN)仍然还是一个悬而未决的研究问题。在提升 CNN 的计算效率方面存在两种主要机制。第一种机制侧重于设计高效的模型,比如 GoogleNet、Xception、MobileNet 和近期的 ShuffleNet。另一种机制则是针对模型加速,具体方法包括对网络连接或通道进行剪枝或进行网络量化(network quantization)。之前在提升计算效率方面的研究主要侧重于图像分类和目标检测等最终任务。但以实时形义分割网络为目标的研究很少,尽管形义分割在机器人相关的应用中有许多益处。对计算高效的形义分割的需求是很显著的。

我们在本论文中提出了一种实时的形义分割网络,该网络基于 [4] 中提出的 ShuffleNet 单元。我们在本论文中将其称为 ShuffleSeg。ShuffleSeg 在其解码器中集成了 skip 连接来改善分割结果。我们的网络需要 2.03 GFLOPs,在计算效率上的表现优于之前最佳的需要 3.83 GFLOPs 的分割网络。尽管如此,ShuffleSeg 还是在 CityScapes 测试集基准上实现了可与最佳表现媲美的平均交并比(IoU)——58.2%。因此,我们的网络在速度和准确度之间实现了很好的平衡。这有望实现在嵌入式设备中的进一步部署应用。

实时形义分割在近期开始得到关注。Paszke et. al. [13] 引入了 ENet,这是带有一个瓶颈模块(bottleneck module)的高效轻量级分割网络。Chaurasia et. al. [14] 提出了 LinkNet 架构,其使用 ResNet18 作为编码器。LinkNet 实现了比 ENet 更优的平均 IoU。但 ENet 在计算效率上的表现更好。SegNet 和 FCN8s 等其它网络也没有重点关注计算效率,但在分割相关文献中被广泛使用。Badrinarayanan et. al. [15] 提出的 SegNet 是使用编码器-解码器架构进行端到端形义分割的早期尝试。Long et. al. [16] 首次尝试了以端到端的方式训练全卷积分割网络(FCN)。他还提出了 skip-net 方法,以在 FCN16s 和 FCN8s 架构的分割中使用更高分辨率的特征图。

就我们所知,之前在实时形义分割上的研究都没有利用分组卷积和通道混洗(channel shuffling)。我们在本研究中提出的 ShuffleSeg 是一种计算高效的分割网络。该网络的设计灵感源自 ShuffleNet,这是一种高效的分类和检测网络。ShuffleNet 单元使用了分组卷积来提升性能,而没有使用 1x1 卷积。只使用分组卷积对网络准确度不利,所以我们还使用了通道混洗来维持优良的准确度。这与 skip 架构组合在一起,可通过使用更高分辨率的特征图来改善我们的分割结果。ShuffleSeg 的代码将会公开发布。

方法

这一节将详细介绍我们提出的用于形义分割的网络架构。该架构将分成两个主要模块进行解释:负责提取特征的编码模块,负责在网络中进行上采样以计算最终类别的概率图的解码模块。

解码器架构

我们提出的架构中所使用的编码器基于 ShuffleNet。我们主要从其中使用的分组卷积和通道混洗中受到了启发。[4,2,3] 表明深度上可分的卷积或分组卷积可以在降低计算成本的同时维持优良的表征能力。分组卷积的堆叠可能会导致出现一大主要瓶颈。输出通道将从有限的输入通道中导出。为了解决这个问题,[4] 中引入了信道混洗,这种方法也在 ShuffleSeg 的编码和解码部分都得到了良好的应用。

图 1:ShuffleSeg 网络架构

编码器架构

该分割网络的解码部分要执行转置卷积,以便上采样到输入的分辨率。受 UNet、FCN8s 和 Dilation Frontend 研究的启发,我们使用了不同的解码方法。我们比较的四种不同的解码方法为 (1) UNet、(2) SkipNet、(3) Dilation Frontend 8s、(4) Dilation 4s

实验

表 1:不同解码方法在分类(class)层面上的准确度和计算效率比较

表 2:表 1:不同解码方法在大类(category)层面上的准确度比较

表 3:ShuffleSeg 与当前最佳的实时分割网络的比较

图 2:ShuffleSeg 在 CityScapes 上的定性图像。(a) 原图像,(b) 使用粗略标注预训练后的 SkipNet,(b) UNet,(c) Dilation 8s

论文:ShuffleSeg:实时形义分割网络(ShuffleSeg: Real-time Semantic Segmentation Network)

实时形义分割对移动和机器人相关的应用而言非常重要。我们提出了一种计算高效的分割网络,我们称之为 ShuffleSeg。我们提出的架构基于其编码器中的分组卷积和通道混洗(channel shuffling),可用于提升性能。我们对不同的解码方法进行了剥离研究(ablation study),比较了 Skip 架构、UNet 和 Dilation Frontend。我们讨论了在速度和准确度权衡上的有趣见解。研究表明在解码方法中的 skip 架构能为实时性能目标提供最好的折中,同时还能通过为更准确的分割使用更高分辨率的特征图来提供足够的准确度。我们在 CityScapes 上评估了 ShuffleSeg,并且将其与当前最佳的实时分割网络进行了比较。它在 CityScapes 测试集上实现了可与其它方法媲美的 58.3% 的交并比(IoU),同时 GFLOPs 降低了 1 倍。ShuffleSeg 在 NVIDIA Jetson TX2 上的运行速度为每秒 15.7 帧,这让它在实时应用上有很大的应用潜力。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

数值计算——「Deep Learning」读书系列分享第四章分享总结

「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN 的提出者、谷歌大脑研究科学家 Ian Goodfellow,...

388120
来自专栏机器人网

技术猿 | 机器视觉所面临的挑战及机器学习技术

---- 机器视觉是通过计算机算法自动理解图片内容的技术,十九世纪六十年代,它起源于人工智能和认知神经科学。为了“解决”机器视觉的问题,1966年,...

31160
来自专栏AI科技评论

「Deep Learning」读书系列分享第四章:数值计算 | 分享总结

AI 科技评论按:「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN的提出者、谷歌大脑研究科学家 Ian Goo...

371100
来自专栏数据科学与人工智能

【算法】朴素贝叶斯法

朴素贝叶斯是一种简单但是非常强大的线性分类器,它在垃圾邮件分类,疾病诊断中都取得了很大的成功。

13000
来自专栏AI科技评论

ICML论文|这违反直觉的“升噪”方法,反而能很好的解决激活函数梯度弥散的问题

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

35980
来自专栏新智元

【世界最大人脸对齐数据集】ICCV 2017:距离解决人脸对齐已不远

【新智元导读】在一篇已经被ICCV 2017接收的论文中,诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集,以及精准实现2D、3D以及2D到3D人...

45190
来自专栏机器之心

深度 | 当前最好的词句嵌入技术概览:从无监督学习转向监督、多任务学习

32450
来自专栏机器之心

学界 | 南京理工大学ICCV 2017论文:图像超分辨率模型MemNet

选自arXiv 机器之心编译 参与:路雪 利用卷积神经网络让图片清晰化的研究目前正成为计算机视觉领域的热点方向。近日,南京理工大学邰颖、杨健、许春燕与密歇根州立...

35050
来自专栏AI研习社

迁移成分分析 (TCA) 方法简介

之前整理总结迁移学习资料的时候有网友评论,大意就是现在的类似资料大全的东西已经太多了,想更深入地了解特定的细节。从这篇文章开始我将以《小王爱迁移》为名写一系列的...

65740
来自专栏小小挖掘机

推荐系统遇上深度学习(十六)--详解推荐系统中的常用评测指标

最近阅读论文的过程中,发现推荐系统中的评价指标真的是五花八门,今天我们就来系统的总结一下,这些指标有的适用于二分类问题,有的适用于对推荐列表topk的评价。

18520

扫码关注云+社区

领取腾讯云代金券