《Unet》论文阅读与

题外话

上篇对FCN的论文解读提到,FCN的训练依赖大量数据,并且仍存在分割结果不精细的弱点。今天要说的Unet就是受到FCN启发针对医学图像做语义分割,且可以利用少量的数据学习到一个对边缘提取十分鲁棒的模型,在生物医学图像分割领域有很大作用。据我了解,Unet是现在很多公司的魔改对话,在移动/嵌入式端的,也已经有把Unet做到了实时的例子。

网络架构

这就是整个网络的结构,大体分为收缩和扩张路径来组成。因为形似一个字母U,得名Unet。收缩路径仍然是利用传统卷积神经网络的卷积池化组件,其中经过一次下采样之后,channels变为原来的2倍。扩张路径由2 * 2的反卷积,反卷机的输出通道为原来通道数的一半,再与原来的feature map(裁剪之后)串联,得到和原来一样多的通道数的feature map,再经过2个尺寸为3 * 3的卷积和ReLU的作用。裁剪特征图是必要的,因为在卷积的过程中会有边界像素的丢失。在最后一层通过卷积核大小为1 * 1的卷积作用得到想要的目标种类。在Unet中一共有23个卷积层。但是这个网络需要谨慎的选择输入图片的尺寸,以保证所有的Max Pooling操作作用于长宽为偶数的feature map。

Trick 1

对于尺寸较大的图像:Overlap-tile strategy

由于网络没有全连接层,并且只使用每个卷积的有效部分,所以只有分割图像完全包含在输入图像中可以获得完整的上下文像素。而这个策略允许通过重叠区块无缝分割任意大的图像,为了预测图像边界区域中的像素,通过镜像的输入图像来外推丢失的上下文。这种平铺策略对于将网络应用于大图像很重要,否则分辨率将受到GPU内存的限制。可以把这个问题理解为要对超级大的图像中的小目标进行检测,那么一个可行的策略就是把原图分成很多patch,再对每个patch分别检测,最后把结果组合在一起。

Trick 2

数据集可用数据量较少:数据增强

可用的训练数据非常少,通过对可用的训练图像应用弹性变形来进行数据增强。这允许网络学习到这种变形的不变性,而不需要在注释的图像语料库中看到这些变换。这在生物医学分割中尤其重要,因为变形是组织中最常见的变化,并且可以有效的模仿真实的变形。Dosovitskiy等人已经证明在无监督表征学习的范围内学习不变性的数据增加的价值,通过在一个3*3的粗糙网格中使用一个随机位移向量产生一个平滑的变形,位移量从高斯分布中取样,高斯分布有10个像素的标准差,每个像素的偏移值通过bicubic interpolation来获得。

Trick 3

相同物体间的间隔不容易分割出来:加权损失

很多细胞分割任务中的一大挑战是分离同一类接触体,本文采用加权损失,其中接触单元之间的分离背景标签在损失函数中获得大的权重。以此方法提升对于相互接触的相同物体之间缝隙的分割效果。

代码实现

caffe版本Unet: https://github.com/warden3344/unet

keras版本Unet: https://github.com/zhixuhao/unet

我的实现: https://github.com/BBuf/Keras-Semantic-Segmentation

本文分享自微信公众号 - GiantPandaCV(BBuf233)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

云从科技与中科院联合夺得 ICCV 2019 无人机目标跟踪冠军

10 月 27 日-11 月 2 日,在 ICCV 2019 Workshop 举办的 Vision Meets Drone: A Challenge(简称:V...

9140
来自专栏闪电gogogo的专栏

[转]SIMD、MMX、SSE、AVX、3D Now!、NEON

对于SISD,每个指令只能处理一个数据,而SIMD一个指令可以处理多个数据,因为多个数据的处理是平行的,因此从时间来说,一个指令执行的时间,SISD和SIMD是...

9510
来自专栏大数据文摘

操控悬浮粒子,空中三维成像,能听能摸!Nature和Science报道,裸眼3D新可能

在 1977 年上映的科幻经典《星球大战》中,莱娅公主向卢克天行者和欧比旺发出了三维版求救影像。

12610
来自专栏HT

基于 HTML5 + WebGL 实现 3D 挖掘机系统

在工业互联网以及物联网的影响下,人们对于机械的管理,机械的可视化,机械的操作可视化提出了更高的要求。如何在一个系统中完整的显示机械的运行情况,机械的运行轨迹,或...

10120
来自专栏深度学习和计算机视觉

3D视觉技术在机器人抓取作业中的应用实例

摘要:近年来,机器人自动化领域越来越多地应用3D视觉技术对目标物体进行定位。本文主要研究3D视觉技术在机器人抓取作业中的应用,总结了3D视觉技术在识别、定位物体...

10010
来自专栏Python数据科学

如何通俗易懂地解释卷积?

卷积这个概念,很早以前就学过,但是一直没有搞懂。教科书上通常会给出定义,给出很多性质,也会用实例和图形进行解释,但究竟为什么要这么设计,这么计算,背后的意义是什...

6820
来自专栏深度学习和计算机视觉

结构光视觉传感器的标定

我们不考虑镜头的畸变,将相机的成像模型简化为小孔成像模型,则特征点的图像坐标Pf 与其在摄像机坐标系下的三维坐标P 之间的关系可表示为:

8030
来自专栏ROBOTEDU

【简单的CV】2.0 滤波、核与卷积(下)

这个图就是模糊处理过的图片,大部分模糊的图片给我们感觉都是分辨率不够。所以我们这里的滤波思路就是“降低图像的分辨率”。

5810
来自专栏AI小白入门

【综述】卷积神经网络: 从基础技术到研究前景

过去几年来,计算机视觉研究主要集中在卷积神经网络(常简称为 ConvNet 或 CNN)上。这些工作已经在广泛的分类和回归任务上实现了新的当前最佳表现。相对而言...

6920
来自专栏深度学习和计算机视觉

AI图像识别:人类看的是形状,算法看的是纹理

图片中的动物轮廓是猫,但是猫披着大象皮肤纹理,将图片交给人识别,人会说是猫,如果给计算机视觉算法处理,它会说是大象。德国研究人员认为:人看的是形状,计算机看的是...

9910

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励