业界 | 谷歌最新语义图像分割模型DeepLab-v3+今日开源

选自Google Research Blog

作者:Liang-Chieh Chen、Yukun Zhu

机器之心编译

参与:刘晓坤、路雪

刚刚,谷歌开源了语义图像分割模型 DeepLab-v3+,DeepLab-v3+结合了空间金字塔池化模块和编码器-解码器结构的优势,是自三年前的 DeepLab 以来的最新、性能最优的版本。

GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab

语义图像分割任务是指将语义标签(例如「道路」、「天空」、「人」、「狗」)分配给图像中的每一个像素,这种技术有很多新应用,例如,Pixel 2 和 Pixel 2 XL 智能手机中肖像模式的合成浅景深效应,以及移动设备的实时语义分割等。分配这些语义标签的时候需要精准定位目标的轮廓,因此相比其他的视觉实体识别任务(如图像级分类或边界框级检测等),该任务需要更高的定位准确率。

今天,谷歌开源了其最新、性能最优的语义图像分割模型 DeepLab-v3+ [1],该模型使用 TensorFlow 实现。DeepLab-v3+ 模型建立在一种强大的卷积神经网络主干架构上 [2,3],以得到最准确的结果,该模型适用于服务器端的部署。此外,谷歌还分享了他们的 TensorFlow 模型训练和评估代码,以及在 Pascal VOC 2012 和 Cityscapes 基准语义分割任务上预训练的模型。

自三年前谷歌发布第一个版本的 DeepLab 模型 [4] 以来,CNN 特征提取器、目标尺度建模技术、语境信息处理、模型训练流程、深度学习硬件和软件的不断改进和优化,促使该模型升级到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通过添加一个简单而有效的解码器模块以精炼分割结果(尤其是在目标边界处),将 DeepLab-v3 扩展为 DeepLab-v3+。他们还进一步将深度可分卷积(depthwise separable convolution)应用到金字塔型的空洞池化(Atrous Spatial Pyramid Pooling,ASPP)[5, 6] 和解码器模块上,以得到更快更强大的语义分割编码器-解码器网络。

现代语义图像分割系统都是建立在卷积神经网络之上,并达到了五年前无法想象的准确率,这得归功于方法、硬件和数据集的优化。谷歌希望通过和社区共享该系统,学界和业界能更容易地复现和提升当前最优系统,在新的数据集上训练模型,以及为该技术开发新的应用。

论文:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

论文链接:https://arxiv.org/abs/1802.02611

摘要:深度神经网络使用空间金字塔池化模块或编码器-解码器结构执行语义分割任务。前者通过在多个 rate、多个有效视野上用滤波器探测输入特征或执行池化操作,来编码多尺度的上下文信息;后者通过逐渐恢复空间信息来捕捉更加精细的目标边界。在这项研究中,我们将二者的优势结合起来。具体来说,我们通过添加一个简单有效的解码器模块以精炼分割结果(尤其是目标边界),将 DeepLab-v3 扩展为本文提出的新模型 DeepLab-v3+。我们进一步探索了 Xception 模型,并将深度可分卷积应用到金字塔型的空洞池化(ASPP)和解码器模块上,以得到更快更强大的编码器-解码器网络。我们在 PASCAL VOC 2012 语义图像分割数据集上证明了该模型的有效性,在没有任何后处理的情况下该模型达到了 89% 的准确率。

参考阅读:

资源 | 从全连接层到大型卷积核:深度学习语义分割全指南

原文链接:https://research.googleblog.com/2018/03/semantic-image-segmentation-with.html

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-03-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习、深度学习

人群密度估计--Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs

Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs ICCV2...

31850
来自专栏机器学习、深度学习

人群密度估计--CNN-based Cascaded Multi-task Learning of High-level Prior and Density Estimation for Crowd

CNN-based Cascaded Multi-task Learning of High-level Prior and Density Estimatio...

28150
来自专栏目标检测和深度学习

干货 | 目标检测入门,看这篇就够了(下)

作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文章将回...

58680
来自专栏目标检测和深度学习

深度学习之基础网络演进、分类与定位的权衡|牛喀技研

深度学习,目标检测,图像,智能驾驶 编译:牛喀网-钱伟 前言 本篇关注基础网络架构的演进和处理分类、定位这一矛盾问题上的进展。 基础网络结构的演进 基础网络(...

93770
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

使用局部标准差实现图像的局部对比度增强算法。

      图像的对比度增强算法在很多场合都有着重要的应用,特别是在医学图像上,这是因为在众多疾病的诊断中,医学图像的视觉检查时很有必要的。而医学图像由于本身及...

36890
来自专栏AI科技大本营的专栏

干货 | 目标检测入门,看这篇就够了(下)

? 作者 | 李家丞( 同济大学数学系本科在读,现格灵深瞳算法部实习生) 近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,本系列文...

69870
来自专栏ATYUN订阅号

使用循环神经网络的时间序列预测指南(包含用LSTMs预测未来的货币汇率)

Statsbot团队发表过一篇关于使用时间序列分析来进行异常检测的文章。文章地址:https://blog.statsbot.co/time-series-an...

40390
来自专栏汪毅雄的专栏

机器学习之回归原理详述(一)

本文用了从数学层面和代码层面,再结合一些通俗易懂的例子,详细地描述了回归主要涉及的原理和知识,希望对于机器学习的初学者或者有兴趣研究模型具体实现的同学带来一点帮...

1.4K30
来自专栏GAN&CV

GoogLenet解读

本文介绍的是著名的网络结构GoogLeNet及其延伸版本,目的是试图领会其中的思想而不是单纯关注结构。

14320
来自专栏CVer

[计算机视觉论文速递] 2018-05-22

Amusi 将日常整理的论文都会同步发布到 daily-paper-computer-vision 上。名字有点露骨,还请见谅。喜欢的童鞋,欢迎star、for...

10720

扫码关注云+社区

领取腾讯云代金券