首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌大脑新技术——多尺度特征金字塔结构用于目标检测

谷歌大脑新技术——多尺度特征金字塔结构用于目标检测

作者头像
计算机视觉研究院
发布2019-08-01 13:11:08
1.1K0
发布2019-08-01 13:11:08
举报

多尺度特征金字塔结构

导 读

当前最先进的目标检测卷积结构是手动设计的。在这里,我们的目标是学习一个更好的特征金字塔网络结构的目标检测。

采用神经结构搜索,在覆盖所有跨尺度连接的新的可扩展搜索空间中发现一种新的特征金字塔结构,新体系结构名为:NAS-FPN,由自上而下和自下而上的连接组成,以融合跨尺度的特性。NAS-FPN与RetinaNet框架(上图)中的各种主干模型相结合,与最先进的目标检测模型相比,获得了更好的精度。

引言&亮点

设计特征金字塔架构的挑战在于其巨大的设计空间。组合来自不同比例的特征的可能连接的数量随图层的数量呈指数增长。

最近,Neural Architecture Search算法展示了在巨大搜索空间中高效地发现用于图像分类的最佳性能架构。为了获得结果,Zofh等人提出一种模块化架构,可重复并堆叠成可扩展架构。

受Zofh等人的启发,提出了可扩展架构的搜索空间,以生成金字塔表示。主要的工作的关键贡献在于设计搜索空间,该搜索空间覆盖所有可能的交叉比例连接以生成多尺度特征表示。

在搜索过程中,目标是发现具有相同输入和输出特征级别的原子架构,并且可以重复应用。模块化搜索空间使搜索金字塔架构易于管理。模块化金字塔架构的另一个优点是能够随时检测到物体(或“early exit”)。尽管已经尝试了这样的早期退出方法,但是在考虑到这种约束的情况下手动设计这样的体系结构是相当困难的。

移动设备上的精确模型(顶部)和快速模型(底部)中每幅图像的平均精度与推理时间。

新方法

我们的工作是以RetinaNet为基础的,因为这是一个简单和有效的框架。RetinaNet有两方面:一种是backbone network(图像分类网络),另一种是特征金字塔网络(FPN)。提出的算法目标是发现好于FPN的RetinaNet。

RetinaNet

Architecture Search Space

在我们的搜索空间中,特征金字塔网络由多个“合并单元”组成,这些单元将多个输入层组合成RetinaNet的表示。在下面,我们将描述输入到特征金字塔网络,以及如何构建每个合并单元。

Feature Pyramid Network

特征金字塔是用于检测不同尺度的对象的识别系统中的基本组件。但是最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们是计算密集型和内存密集型的。

利用深层卷积网络固有的多尺度金字塔层次结构来构造具有边际额外损失的特征金字塔。开发了一种具有横向连接的自上而下的架构,用于在所有尺度上构建高级语义特征图。在基本的Faster R-CNN系统中使用FPN,在COCO检测基准上没有任何花里胡哨的技巧实现了最先进的单模型结果,超过所有现有的单模型条目,包括来自COCO2016挑战赛获胜者。

多尺度上识别目标是计算机视觉的一个基本挑战。在图像金字塔上构建特征金字塔(简称特征化图像金字塔)形成了一个基本解决方案。因为一个目标的尺度改变通过在金字塔中移动层级来抵消,所以从某种意义上说这些金字塔是尺度不变的。直观上讲,这些性质通过在位置和金字塔层级上扫描模型使得模型检测跨尺度的目标。

历史阅读:特征金字塔特征用于目标检测

Merging cell

在以前的目标检测工作中,一个重要的观察是必须在不同的尺度上“合并”特征。跨尺度连接模型将高级别特征与强语义和低级别特征与高分辨率相结合。

合并单元格中需要四个预测步骤。注意,输出特性层被推后到候选特性层的堆栈中,并可用于下一个合并单元格的选择。

Deeply supervised Anytime Object Detection

堆叠的金字塔网络的多尺度NAS-FPN的一个优势是在所给的任何金字塔网络输出就可以获取特征金字塔表示。该属性支持任何时间的检测,可以通过早期退出生成检测结果。

任何时刻检测模型的性能都接近基线模型,说明NAS-FPN可以用于任何时间的检测。

实验结果

下图(左)显示了不同迭代训练的抽样架构的AP,可以看到随时间的推移,控制器生成了更好的体系结构;下图5(右)显示了抽样体系结构的总数以及RNN控制器生成的唯一体系结构的总数。

具体的独特架构如下:

Discovered feature pyramid architectures

什么促使一个好的特征金字塔结构?我们希望通过可视化已发现的架构来阐明这个问题。

当控制器收敛时,我们发现了更好的特征。控制器不是随机地从候选池中选择两个输入层,而是学习在新生成的层上构建连接,以重用以前计算过的特征表示。

Detection accuracy to inference time (left), FLOPs (middle), and parameters (right)

Performance of RetinaNet with NAS-FPN and other state-of-the-art detectors on test-dev set of COCO.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档