专栏首页机器学习与python集中营【完结】12篇文章带你逛遍主流分割网络

【完结】12篇文章带你逛遍主流分割网络

转自:有三AI

专栏《图像分割模型》正式完结了。在本专栏中,我们从编解码结构入手,讲到解码器设计;从感受野,讲到多尺度融合;从CNN,讲到RNN与CRF;从2D分割,讲到3D分割;从语义分割到实例分割和全景分割。这篇文章我们就一起回顾一下这些网络结构。

作者 | 孙叔桥

编辑 | 言有三

1 FCN

Fully Convolutional Network(FCN)是神经网络用于图像分割任务的鼻祖,后续提出的大部分基于编解码结构的图像分割网络都是从FCN上发展、改进而来的。

FCN用卷积层替换了分类网络结构中的全连接层,从而得到稠密的分割结果,实现端到端训练。

同时,网络还将不同尺度下的特征信息进行融合,实现更细节的图像分割。

2 SegNet

SegNet在FCN的基础上增加了解码器,形成目前分割任务中最流行的编解码结构,并给出了不同解码器对效果的影响和原因。

此外,由于应用了基于位置信息的加码过程,相比较FCN而言,SegNet中的对应结构的体量要小得多。

3 空洞卷积

编解码结构中,为了平衡空间尺寸与计算量,同时增大网络结构的感受野,通常会对输入图像进行一定的下采样。为了恢复分割结果的空间分辨率,解码器往往需要应用上采样或反卷积。

但是,基于插值的上采样效果通常不理想,而反卷积操作则增加了计算量。基于此,DeepLab中就提出了“空洞卷积”的概念,在不增加参数个数的基础上,实现感受野与分辨率的控制。

4 ENet

图像分割的任务最终还是要落脚于实际应用,而此前的网络结构最快也只能达到1fps,远不及实时所需要的10fps。

ENet基于空洞卷积,实现了NVIDIA TX1上分辨率480x320下的21.1fps。

此外,文中还介绍了设计实时网络结构所需要考虑的6个重要内容。

5 CRFasRNN

在许多计算机视觉任务中,后处理操作能够有效提升算法的质量。而在众多后处理方法中,条件随机场(CRF)的效果名列前茅。

然而,CRF的理论性强,应用起来不方便。因此,CRFasRNN中提出以RNN的形式实现CRF的解决方案,从而让基于CRF的后处理变得简单。

6 PSPNet

不同感受野下所带来的上下文信息对图像分割而言十分重要,往往感受野选择的恰当性会直接影响最终的分割效果,这种影响对极端尺寸(极大和极小)目标表现地尤为明显。

为了在同一级别下融合多尺度下的上下文信息,PSPNet提出了池化金字塔结构,从而实现了可以理解目标所处环境的图像分割。

7 ParseNet

尽管从网络结构看,有些网络的理论感受野能够达到非常大,但实际上,理论感受野并不能等同于实际感受野,其覆盖和利用的信息也不够完整。

基于这个发现,ParseNet提出了基于池化的全局特征利用,从而实现全局特征与局部特征融合下的图像分割。

文中也介绍了如何有效融合两种特征,并利用好融合特征。

8 RefineNet

尽管前面的特征融合方法能够恢复在计算过程中被下降的空间分辨率,但是这种恢复往往没有利用完整的原始空间信息,从而导致最终结果中的信息丢失。

基于此,RefineNet设计了空间分辨率的恢复结构,实现了基于残差卷积模块(RCU)、多分辨率融合模块(MRF)和串联残差池化模块(CRP)下的高精度图像分割。

9 ReSeg

尽管CNN的效果不错,但是其需要依赖人工指定的核函数实现计算,从而限制了上下文的处理能力。因此,ReSeg提出基于双向循环神经网络(BRNN)实现分割,来克服这种不足。

在ReNet的基础上,ReSeg通过依次扫描互相垂直的两个方向,实现不同时序下的特征提取。

10 LSTM-CF

除了单纯基于2D的RGB图像的分割外,图像分割任务的完成还可以利用深度信息进行辅助,从而实现纹理信息下无法判断的分割。

LSTM-CF基于ReNet和空洞卷积,实现结合了深度信息的图像分割。为精度提升和深度信息利用提供了一种思路。

11 DeepMask

除了语义分割,图像分割中还有另外两种类别的任务:实例分割和全景分割。

我们通过DeepMask,给出了实例分割下的网络的设计思路。DeepMask可以同时实现前背景分割、前景语义分割和前景实例分割。

12 全景分割

语义分割与实例分割任务虽然相似,但是由于度量不同,二者无法直接结合。为了实现整图内things类别和stuff类别的同时分割,全景分割任务提出了新的度量。

全景分割任务下,图像内的每个像素点都有其对应的语义标签和实例标签(things类别),从而能够最大程度上地理解整幅图像。

猜您喜欢

往期精选▼

1. 一份超详细的计算机网络基础学习指南

2. python代码调试神器PySnooper

3. 基于深度学习的图像语义分割技术精度度量标准

4. 基于matplotlib和keras的神经网络结果可视化

5. 【Python面试】315道Python面试题汇总

本文分享自微信公众号 - 机器学习与python集中营(yasuozet01)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 半监督学习革命

    来源商业新知,原标题:干货!谷歌首席科学家发文阐述“半监督学习革命”,想走出瓶颈先试试这个

    商业新知
  • 人工智能都能写Java了!这款插件让你编程更轻松

    最近在浏览技术社区,发现了一款 IDE 插件,利用人工智能技术帮助程序员高效写代码、节省开发时间,一下子勾起了我的好奇心。

    Java技术栈
  • 推荐系统遇上深度学习(四十七)-TEM:基于树模型构建可解释性推荐系统

    本文论文的题目为:《TEM: Tree-enhanced Embedding Model for Explainable Recommendation》

    石晓文
  • CVPR 2019 | 智能体张量融合,一种保持空间结构信息的轨迹预测方法

    轨迹预测问题之所以具有挑战性,是因为智能体的动作是随机的,并且取决于他们的目的地、与其他智能体的社会交互、以及其所在场景的物理约束。预测还必须对不同场景中不断变...

    机器之心
  • 19行关键代码,带你轻松入门PaddlePaddle单机训练

    PaddlePaddle是百度自研的集深度学习框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台,有全面的官方支持的工业级应用模型,涵盖自然语...

    AI科技大本营
  • 这个AI批量作画每小时九张,与毕加索同台竞技,还真有人买

    在那次拍卖会上,一共有363件画作“同台竞技”,其中包括20多幅毕加索的名画。最终一幅“特别”的画作力压群雄,以43.25万美元(约300万人民币)成交,值得注...

    大数据文摘
  • 李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)

    https://blog.csdn.net/u010164190/article/details/72633245

    石晓文
  • 一根烟上热搜,先让AI看看你的肺

    作者 | 李翔,国内某互联网大厂AI民工,前携程酒店图像技术负责人,计算机视觉和深度学习重度爱好者,在ICCV和CVPR等会议上发表论文十余篇;马杰超,任职于某...

    AI科技大本营
  • MIT发明10美元AI触觉手套:既能识别物体,又能称重,论文已上Nature

    MIT 研究人员开发了一种低成本的针织手套(仅需 10 美元)——「可伸缩触觉手套」(STAG,scalable tactile glove)。该手套配有 54...

    机器之心
  • 揭秘LinkedIn!全球最大的招聘推荐系统如何被机器学习驱动?

    LinkedIn是迄今为止市面上极受欢迎的招聘平台之一。来自世界各地的招聘者每天会从LinkedIn上网罗挑选适合他们招人岗位的候选人。

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券