前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >mask rcnn详解_3R制造

mask rcnn详解_3R制造

作者头像
全栈程序员站长
发布2022-11-10 11:59:03
4200
发布2022-11-10 11:59:03
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

一. Mask-RCNN 介绍

上篇文章介绍了 FCN,这篇文章引入个新的概念 Mask-RCNN,看着比较好理解哈,就是在 RCNN 的基础上添加 Mask。

Mask-RCNN 来自于年轻有为的 Kaiming 大神,通过在 Faster-RCNN 的基础上添加一个分支网络,在实现目标检测的同时,把目标像素分割出来。

论文下载:Mask R-CNN 部分翻译

代码下载:【Github

Mask-RCNN 的网络结构示意(在作者原图基础上修改了一下):

mask rcnn详解_3R制造
mask rcnn详解_3R制造

假设大家对 Faster 已经很熟悉了,不熟悉的同学建议先看下之前的博文:【目标检测-RCNN系列

其中 黑色部分为原来的 Faster-RCNN,红色部分为在 Faster网络上的修改:

1)将 Roi Pooling 层替换成了 RoiAlign; 2)添加并列的 FCN 层(mask 层);

先来概述一下 Mask-RCNN 的几个特点(来自于 Paper 的 Abstract):

1)在边框识别的基础上添加分支网络,用于 语义Mask 识别; 2)训练简单,相对于 Faster 仅增加一个小的 Overhead,可以跑到 5FPS; 3)可以方便的扩展到其他任务,比如人的姿态估计 等; 4)不借助 Trick,在每个任务上,效果优于目前所有的 single-model entries; 包括 COCO 2016 的Winners。

PS:写到这儿提醒一句,建议大家先读一遍 原 Paper,这样再回来看的话会有第二次理解。

二. RCNN行人检测框架

基于最早的 Faster RCNN 框架,出现不少改进,主要有三篇需要看:

1)作者推荐的这篇 Speed/accuracy trade-offs for modern convolutional object detectors 论文下载arxiv2)ResNet MSRA也算是作者自己的作品,可以 refer to blog【ResNet残差网络论文下载arxiv3)FPN Feature Pyramid Networks for Object Detection,通过特征金字塔来融合多层特征,实现CNN。 论文下载arxiv

来看下 后面两种 RCNN 方法与 Mask 结合的示意图(直接贴原图了):

mask rcnn详解_3R制造
mask rcnn详解_3R制造

图中灰色部分是 原来的 RCNN 结合 ResNet or FPN 的网络,下面黑色部分为新添加的并联 Mask层,这个图本身与上面的图也没有什么区别,旨在说明作者所提出的Mask RCNN 方法的泛化适应能力 – 可以和多种 RCNN框架结合,表现都不错。

三. Mask-RCNN 技术要点

● 技术要点1 – 强化的基础网络 通过 ResNeXt-101+FPN 用作特征提取网络,达到 state-of-the-art 的效果。 ● 技术要点2 – ROIAlign 采用 ROIAlign 替代 RoiPooling(改进池化操作)。引入了一个插值过程,先通过双线性插值到14*14,再 pooling到7*7,很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。 PS: 虽然 Misalignment 在分类问题上影响并不大,但在 Pixel 级别的 Mask 上会存在较大误差。 后面我们把结果对比贴出来(Table2 c & d),能够看到 ROIAlign 带来较大的改进,可以看到,Stride 越大改进越明显。 ● 技术要点3 – Loss Function 每个 ROIAlign 对应 K * m^2 维度的输出。K 对应类别个数,即输出 K 个mask,m对应 池化分辨率(7*7)。Loss 函数定义: Lmask(Cls_k) = Sigmoid (Cls_k), 平均二值交叉熵 (average binary cross-entropy)Loss,通过逐像素的 Sigmoid 计算得到。 Why K个mask?通过对每个 Class 对应一个 Mask 可以有效避免类间竞争(其他 Class 不贡献 Loss )。

mask rcnn详解_3R制造
mask rcnn详解_3R制造

通过结果对比来看(Table2 b),也就是作者所说的 Decouple 解耦,要比多分类 的 Softmax 效果好很多。

四. 对比实验效果

mask rcnn详解_3R制造
mask rcnn详解_3R制造

另外,作者给出了很多实验分割效果,就不都列了,只贴一张 和 FCIS 的对比图(FCIS 出现了Overlap 的问题):

mask rcnn详解_3R制造
mask rcnn详解_3R制造

五. Mask-RCNN 扩展

Mask-RCNN 在姿态估计上的扩展,效果不错,有兴趣的童鞋可以看Paper。

mask rcnn详解_3R制造
mask rcnn详解_3R制造

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/189006.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月26日 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档