本文为 AI 研习社编译的技术博客,原标题 : Image Segmentation Overview & ENet Implementation 作者 | Aviv Shamsian 翻译 | sherry3255、alexchung 校对 | 邓普斯·杰弗 审核 | 酱番梨 整理 | 立鱼王 原文链接: https://medium.com/@mista2311/image-segmentation-overview-enet-implementation-8394ff71cf26
在这篇博文中,我将概述图像分割并介绍ENet论文。
论文链接:
https://s3-us-west-2.amazonaws.com/mlsurveys/54.pdf
⭐库链接:
https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation
在计算机视觉领域中,将一幅数字图像分割为多个组成部分(一系列像素,或所熟知的超像素)的过程即为图像分割。分割的目标就是简化并/或变换可以将图像转换为更有意义和更易分析的内容的表达。图像分割通常被用来定位图像中目标和边界(线、曲面)的位置。更准确地说,图像分割是为图像中的每一个像素打上标签,其中具有相同标签的像素具有相同特征。在图像分割领域中有多种技术:
过去,提出了很多不同的算法来进行图像分割,有:
还有很多用于图像分割的方法在上文中未提及,比如双聚类方法、快速匹配法、分水岭变换法等等。
UNet--u-net是用来快速准确的分割图像的一种卷积神经网络结构。到目前为止,在ISBI挑战中,该网络较先前最好的模型(一种基于滑动窗口的卷积网络)已在分割电子显微镜下神经元结构的任务中取得了更好的效果。在2015年ISBI大会上,它赢得了计算机自动检测咬翼片中重龋病的大挑战,并且在很大程度上(参见我们的公告)可被认为是两个最具挑战性的透射光显微镜类别上(相位对比度和DIC显微镜),赢得了细胞跟踪的挑战。
SegNet--SegNet由编码器和解码器构成,但没有全连接层。SegNet是一个包含全卷积网络(FCN)的13 VGG16卷积层。
Mask R-CNN--Faster R-CNN采用一个CNN特征提取其来提取图像特征。然后使用CNN区域建议网络来生成感兴趣区域(Roi)。我们应用RoI池化层将它们打包以形成固定维度。然后将其作为全连接层的输入来进行分类和边界框预测。
全分辨率残差网络(FRRN)--FRRN通过执行必要的额外处理步骤来获取全图像分辨率下像素精度的分割掩码。
金字塔场景解析网络(PSPNet)--全分辨率残差网络的计算非常密集,应用在全尺度照片上非常缓慢。为了解决这个问题,PSPNet采用了4种不同的最大池化操作,这些操作分别对应4种不同的窗口大小和步长。使用最大池化层可以更有效地提取不同尺度中特征信息。
DeepLabv3+ --先前的网络可以通过使用不同变化率的过滤器和池操作来编码多尺度上下文信息。更新的网络可以通过恢复空间信息来捕捉更清晰的目标边界。DeepLabv3+结合了这两种方法。DeepLabv3+同时采用了编码器、解码器和空间金字塔池化模块。
ENet(Efficient Neural Network)提供了执行实时逐像素语义分割的能力。ENet的执行速度快了18倍,且需要的浮点运算次数少了75倍,同时参数减少了79倍,并且提供了与现有模型对比相似或更高的精度(根据2016年)。在CamVid, CityScapes 和SUN数据集执行测试。
模型体系结构由初始块和五个bottlenecks组成。 前三个bottlenecks用于编码输入图像,另外两个用于解码输入图像。
每个bottlenecks模块包含:
如果bottleneck是降采样,则将最大池化层添加到主分支。同时使用步长为2的 2x2 的卷积替换第一个 1x1的投影。
它们零填充激活以匹配功能图的数量。
卷积有时候是非对称卷积,例如一系列5 * 1 的卷积与1 * 5的卷积。
他们使用空间Dropout进行正则化:
如果你想要训练ENet模型并一次性复现结果,你可以通过阅读原文查看链接打开笔记本并运行它。无需下载既可运行和用。
如果喜欢, 不要忘记鼓掌, 标星 和 fork这个项目!!!!
https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation
点击阅读原文,回看图像分割相关文章