思考: R-CNN系列 网络结构 设计缺陷

观察

在 Fast R-CNN 中,网络最后部分的 cls reg (分类回归,即对框内实例进行标签分类)和 bbox reg (边界框回归,即对边界框进行平移回归)采用的是 双分支 并行 结构:

而且在 Faster R-CNN 中照搬了这一结构。

甚至在 Mask R-CNN 中,更是将 cls regbbox regmask 设计成 三分支 并行

思考

anchor中,绝大部分是要被打上 bg 标签 (即 分类为 “背景”)的。而 bbox reg 和 mask 又是很花时间的。

这就意味着:绝大部分被送入 bbox reg 分支mask 分支anchor,不仅是 无用的 anchor,更是 浪费GPU劳动力的 anchor

那么为何不把 多分支 并行 改成 多分支 串行 呢?

串行顺序: cls reg 分支 (分类任务) ——> bbox reg 分支 (检测任务) ——> seg 分支 (分割任务)

把 RPN(或FPN)生成的 海量 anchor 首先送入 cls reg 分支 (分类任务) 。既完成了分类任务,同时大浪淘沙,筛选后仅剩下少量的 非背景anchor,大大减少了后续的 bbox reg 分支 (检测任务) 乃至 seg 分支 (分割任务) 的工作量。

附加

但是 Kaiming He 和 Ross Girshick 怎么可能犯这么低级的错误?!所以十有八九是我错了。

后面我会仔细捋清楚 Faster R-CNN 和 Mask R-CNN 的源码实现细节,再回过头来补充。

后记

经过和师兄的讨论,发现如果要是设计为串行,那么就无法实现end-to-end训练了。说明我之前想错了。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

通过预测API窃取机器学习模型

由于机器学习可能涉及到训练数据的隐私敏感信息、机器学习模型的商业价值及其安全中的应用,所以机器学习模型在一定程度上是可以认为是机密的。但是越来越对机器学习服务提...

3335
来自专栏CSDN技术头条

看机器学习如何还原图像色彩

k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中,将使用k-means算法来减少图像上的颜色(但不减少像素),从而也减少了图像的大小。在这个...

2169
来自专栏AI科技大本营的专栏

如何通过机器学习还原图像色彩

作者 | Klevis Ramo 译者 | Teixeira10 在本文中,作者提出了使用k-means算法来对图像进行色彩还原,介绍算法的步骤,同时应用在图...

34912
来自专栏企鹅号快讯

看机器学习如何还原图像色彩

【译者注】在本文中,作者提出了使用k-means算法来对图像进行色彩还原,介绍算法的步骤,同时应用在图像上,通过对比还原前后的图像,来证明k-means算法的有...

2117
来自专栏大数据挖掘DT机器学习

用libsvm进行回归预测

作者:kongmeng http://www.cnblogs.com/hdu-2010/p 最近因工作需要,学习了台湾大学林智仁(Lin Chih-Jen)教授...

5017
来自专栏Petrichor的专栏

深度学习: 从 Selective Search 到 RPN

具体参见我的另一篇博客:Selective Search (选择搜索),简而言之就是,Selective Search 太low太低效。

2334
来自专栏ATYUN订阅号

使用keras创建一个简单的生成式对抗网络(GAN)

然而,有些恶意的顾客为了获得金钱而出售假酒。在这种情况下,店主必须能够区分假酒和正品葡萄酒。

3694
来自专栏BestSDK

Google发布Tensorflow物体识别API ,自动识别视频内容

做图像识别有很多不同的途径。谷歌最近发布了一个使用Tensorflow的物体识别API,让计算机视觉在各方面都更进了一步。 ? API概述 这个API是用COC...

6835
来自专栏机器学习从入门到成神

机器学习之Validation(验证,模型选择)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

1432
来自专栏企鹅号快讯

一次不成功的深度学习实践-微信跳一跳

最近微信的跳一跳小程序火了一把,所以前天也更新了微信玩了几盘,最多手动到200左右就不行了。 ? 后来准备用代码写个辅助工具,上Github一查,已经有人做出来...

2335

扫码关注云+社区