首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >目标检测 | 基于扩展FPN的小目标检测方法

目标检测 | 基于扩展FPN的小目标检测方法

作者头像
AI算法修炼营
发布2020-05-14 16:31:39
1.4K0
发布2020-05-14 16:31:39
举报
文章被收录于专栏:AI算法修炼营AI算法修炼营

作者:黄浴 本文仅作学术交流,如有侵权,请联系删文

论文链接:https://arxiv.org/abs/2003.07021

摘要:小目标检测仍然是一个尚未解决的挑战,因为很难仅提取几个像素大小的小目标信息。尽管在特征金字塔网络中进行尺度级别的相应检测可以缓解此问题,但各种尺度的特征耦合仍然会损害小目标检测的性能。本文提出了扩展特征金字塔网络(EFPN,extended feature pyramid network),它具有专门用于小目标检测的超高分辨率金字塔层。具体来说,其设计了一个模块,称为特征纹理迁移(FTT,feature texture transfer),该模块用于超分辨率特征并同时提取可信的区域细节。此外,还设计了前景-背景之间平衡(foreground-background-balanced)的损失函数来减轻前景和背景的面积不平衡问题。在实验中,所提出的EFPN在计算和存储上都是高效的,并且在清华-腾讯的小型交通标志数据集Tsinghua-Tencent 100K和微软小型常规目标检测数据集MS COCO上产生了最好的结果。

如图所示,是扩展特征金字塔网络(EFPN)的框架。这里Ci表示CNN骨干网第i阶段的特征图,Pi表示EFPN上的相应金字塔层。EFPN的前4层是vanilla FPN层。特征纹理迁移(FTT)模块集成了P3中的语义内容和P2的区域纹理。然后,类似FPN的自顶向下(top-down)路径将FTT模块输出向下传递,形成最终的扩展金字塔层P'2。扩展的特征金字塔(P'2,P2,P3,P4,P5)被馈送到后续的检测器,以进行进一步的目标定位和分类。

顶部4层金字塔自顶向下构成,用于中型和大型目标检测。EFPN的底部扩展在图中包含一个FTT模块,一个自上而下的路径和一个紫色金字塔层,旨在捕获小目标的区域细节。更具体地讲,在扩展中,特征超分辨率(SR)模块FTT将图中绿色-黄色层表示的EFPN第三层-第四层金字塔混合,产生具有所选区域信息的中间特征P'3,图中用蓝色菱形表示。然后,自上而下的路径将P'3与定制的高分辨率CNN特征图C'2合并,生成最终的扩展金字塔层P'2。

如表所示,在ResNet / ResNeXt 第二步(stage 2)删除了一个最大池化层,并将C'2作为第二步的输出。C'2与原始C2具有相同的表示级别,但是由于分辨率较高,因此包含更多的区域细节。C'2中较小的接收场也有助于更好地定位小目标。从数学上讲,在提议的EFPN中扩展的操作可以描述为 (上箭头表示上采样操作)

如图所示,是特征纹理迁移(FTT)模块的框架。输入特征P3的主要语义内容首先由内容提取器(content extractor)提取。然后,通过亚像素卷积将内容特征的分辨率提高一倍。纹理提取器( texture extractor)从主流特征和参考特征的组合中选择可靠的区域纹理用于小目标检测。最后,残差连接(residual connection)有助于将纹理与超分辨的内容特征融合在一起,为扩展特征金字塔生成P'3层。

FTT模块的主要输入是EFPN第三层特征图P3,参考是EFPN第四层特征图P2。输出P'3可定义为 (Et操作符表示纹理提取器,Ec操作符表示内容提取器)

在训练模型中,正样本损失函数定义为(特征图误差):

全局重建损失函数是(特征图误差):

而前景-背景平衡损失函数:

最后,总损失函数(分别来自P'2-P2层特征图差和P'3-P3层特征图差)是:

下面给出一些实验结果对比:

还有一些直观的结果对比例子:

简单评论一下。

小目标检测的难度在于目标很小,其特征比较浅(如亮度/边缘信息等),语义信息较少;另外小目标和背景之间尺寸不均衡,用较小的感受野去关注其特征的话,很难提取全局语义信息;用较大感受野去关注背景信息的话,那么小目标的特征会丢失信息。

以前的方法主要是以下思路:

  • 数据增强
  • 特征融合
  • 利用上下文信息,或者目标之间建立联系
  • GAN试试
  • 提升图像分辨率
  • 小技巧:ROI pooling被ROI align替换
  • 多尺度空间融合
  • 锚点设计
  • 匹配策略,不用IoU

本文算是超分辨率和多尺度特征融合的修正,集中在特征纹理迁移模块(FTT)。

目标检测系列秘籍一:模型加速之轻量化网络秘籍二:非极大值抑制及回归损失优化秘籍三:多尺度检测秘籍四:数据增强秘籍五:解决样本不均衡问题秘籍六:Anchor-Free 视觉注意力机制系列Non-local模块与Self-attention之间的关系与区别?视觉注意力机制用于分类网络:SENet、CBAM、SKNetNon-local模块与SENet、CBAM的融合:GCNet、DANetNon-local模块如何改进?来看CCNet、ANN 语义分割系列一篇看完就懂的语义分割综述最新实例分割综述:从Mask RCNN 到 BlendMask超强视频语义分割算法!基于语义流快速而准确的场景解析CVPR2020 | HANet:通过高度驱动的注意力网络改善城市场景语义分割

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法修炼营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档