前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >目标检测二值量化——BiDet

目标检测二值量化——BiDet

作者头像
AI异构
发布2020-08-28 11:19:11
2.3K0
发布2020-08-28 11:19:11
举报
文章被收录于专栏:AI异构AI异构

BiDet

本文是清华大学等发表在 CVPR2020 上的针对一阶段或两阶段检测器的二值化工作。由于其有限的表征能力,网络中的信息冗余会造成大量的假正例,显著地降低网络性能。本文提出了一种二值神经网络目标检测方法BiDet, BiDet能通过冗余去除来充分利用二值神经网络在目标检测中的表征能力,通过去除假正例来提高检测精度。具体来说,本文把信息瓶颈(the information bottleneck IB)准则来做目标检测,限制高层(high-level)特征图的信息量,最大化特征图和目标检测之间的互信息。与此同时,我们通过learning sparse object priors对假正例移除,使网络的后部专注于对信息检测的预测。在PACAL VOC和COCO数据集上的实验证明,本文的方法优于其他目标检测二值神经网络。

  • 论文题目:BiDet: An Efficient Binarized Object Detector (CVPR2020)
  • 论文链接:https://openaccess.thecvf.com/content_CVPR_2020/html/Wang_BiDet_An_Efficient_Binarized_Object_Detector_CVPR_2020_paper.html
  • 代码链接:https://github.com/ZiweiWangTHU/BiDet.git

动机

利用 XNOR-Net 的方法对目标检测网络直接进行二值化,网络中的信息冗余(如图(c)和(d)的XNOR的信息内卷)会造成大量的假正例(如图(a)所示)。

为了去除与任务无关的冗余信息,最小化输入图像和高层次特征图( the high-level feature maps )之间的互信息,以此限制检测器提取的信息量;最大化高层次特征图( the high-level feature maps )和目标检测(location & classification)之间的互信息,以此让检测器保留更多和任务相关的信息。

目标检测上的信息冗余

本文提出的方法 Bi-Det,检测结果如图 (b) 所示,相比于图 (a) ,假正例大幅度减少,而且不损失目标正例的检测准确性。图(c)和图(d)分别是训练集和测试集的动态信息,横坐标是输入图像和高层次特征图之间的互信息;纵坐标是高层次特征图和目标检测任务之间的互信息。因此,和 XNOR-Net 相比,本文的方法移除了冗余信息,性能较优。二值信息如何能有效的去除冗余信息,而不损伤真正例是值得思考的一个问题。

方法

信息瓶颈(IB)

信息瓶颈的目标是提取关于任务输入的相关信息,因此 IB 准则在压缩领域被广泛应用。IB 准则致力于最小化输入和学习特征之间的互信息,同时最大化特征图和任务的标准(groundtruth)之间的互信息。目标检测任务从大的步骤上可以看作为马尔可夫过程,如式子 (1) 的马尔科夫链所示:

\begin{aligned} &X \rightarrow F \rightarrow L, C \quad (1) \end{aligned}

其中, X代表输入图像,F 代表 backbone part 输出的高级特征图,L 代表目标的定位,C 代表分类。

目标检测基本框架

根据Markov链,IB准则的目标函数可以写成式子(2):

\min _{\phi_{b}, \phi_{d}} I(X ; F)-\beta I(F ; C, L) \quad (2)
\phi_{b}

是 backbone part 的参数,

\phi_{d}

是 detection part 的参数。

I(X ; F)

是随机变量 X 与 Y 之间的互信息。最小化图像输入和高层特征图之间的互信息,以此限制检测器提取的信息量;最大化高层特征图和目标检测部分的互信息,以此让检测器保留更多和任务相关的信息。最终结果保障去除了和目标检测无关的冗余信息。如上图所示,IB准则能应用于 one-stage 和 two-stage detectors。根据互信息的定义,重写式(2):

I(X ; F)=\mathbb{E}_{\boldsymbol{x} \sim p(\boldsymbol{x})} \mathbb{E}_{\boldsymbol{f} \sim p(\boldsymbol{f} \mid \boldsymbol{x})} \log \frac{p(\boldsymbol{f} \mid \boldsymbol{x})}{p(\boldsymbol{f})} \quad (3)

Detection part中的定位和分类是相互独立的(两者在不同的网络分支中)

I(F ; C, L)=I(F ; C)+I(F ; L) \quad (4)
I(F ; C)=\mathbb{E}_{f \sim p(\boldsymbol{f} \mid \boldsymbol{x})} \mathbb{E}_{\boldsymbol{c} \sim p(\boldsymbol{c} \mid \boldsymbol{f})} \log \frac{p(\boldsymbol{c} \mid \boldsymbol{f})}{p(\boldsymbol{c})} \quad (5)
I(F ; L)=\mathbb{E}_{f \sim p(\boldsymbol{f} \mid \boldsymbol{x})} \mathbb{E}_{\boldsymbol{l}_{1} \sim p\left(\boldsymbol{l}_{1} \mid \boldsymbol{f}\right)} \mathbb{E}_{\boldsymbol{l}_{2} \sim p\left(\boldsymbol{l}_{2} \mid \boldsymbol{f}\right)} \log \frac{p\left(\boldsymbol{l}_{1} \mid \boldsymbol{f}\right) p\left(\boldsymbol{l}_{2} \mid \boldsymbol{f}\right)}{p\left(\boldsymbol{l}_{1}\right) p\left(\boldsymbol{l}_{2}\right)} \quad (6)
\boldsymbol{l}_{1}

代表anchor在水平和垂直方向的shift offset;

\boldsymbol{l}_{2}

代表anchor的高和宽的scale offset。

(x, y)

->

(x, y)+l_{1, j}

;

(\mathrm{h}, w)

->

(h, w)+\exp \left(l_{2, j}\right)
l_{1, j}

l_{2, j}

代表

\boldsymbol{l}_{1}

,

\boldsymbol{l}_{2}

的第j列。

Learning Sparse Object Priors

由于二值检测网络中大量的假正例(false positives), Learing sparse object priors 在检测部分可以让 detection part 致力于信息预测,有效减少假正例。

以 Faster R-CNN 为例,Faster R-CNN 的核心是 RPN(Region Proposal Network)。RPN 的输入为特征图,输出就是候选框集合,包括各候选框属于前景或背景的概率以及位置坐标,在 RPN 的输出基础上,对所有 anchor box 的前景置信度排序,挑选出前 Top-N 的框作为预选框 proposal, 接着 CNN 做进一步特征提取,最后再进行位置回归和物体种类判断。本文的 Learing sparse object priors 的目的就是减少上面提到的预选框proposal的数量

Faster R-CNN RPN

基于 RPN,生成了候选框的集合 M,里面的元素取值为1或0。1代表该block mask为前景,0代表该block mask为背景。为了得到 sparse priors ,即用较少的 pridicted positives ,本文最小化block mask M 的 L1 范数。最小化的过程本质上是在减少置信度分数的信息熵。

\min _{s_{i}}-\frac{1}{m} \sum_{i=1}^{m} s_{i} \log s_{i} \quad (7)

其中,si 是第 i 个预测的前景物体的置信度分数。sparse priors 的实验结果如下图所示,最后通过NMS去除冗余候选框。因此,输出的前景候选框变得稀疏了,有利于detection part更好的预测信息。

sparse priors的实验结果

综上所述, BiDet的目标函数如下所示,其中 J1 代表通过信息瓶颈 IB 准则移除冗余信息,充分利用 BNN 的信息表征能力;J2 代表致力于稀疏化 object priors, 有利于 detection part 更好的预测信息。

\begin{array}{l} \min J=J_{1}+J_{2} \\ =\left(\sum_{t, s} \log \frac{p\left(f_{s t} \mid \boldsymbol{x}\right)}{p\left(f_{s t}\right)}-\beta \sum_{i=1}^{b} \log \frac{p\left(c_{i} \mid \boldsymbol{f}\right) p\left(\boldsymbol{l}_{1, i} \mid \boldsymbol{f}\right) p\left(\boldsymbol{l}_{2, i} \mid \boldsymbol{f}\right)}{p\left(c_{i}\right) p\left(\boldsymbol{l}_{1, i}\right) p\left(\boldsymbol{l}_{2, i}\right)}\right) \\ -\gamma \cdot \frac{1}{m} \sum_{i=1}^{m} s_{i} \log s_{i} \end{array} \quad (8)

其中

\gamma

是 false positive elimination 的超参数。

实验

消融实验

参数消融分析:最优参数选择为:

\gamma

=0.2 ;

\beta

=10

实验对比

检测效果对比

实验结果对比

神经网络二值量化——ReActNet

神经网络低比特量化——TQT

神经网络低比特量化——DSQ

神经网络架构搜索——二值可微分搜索(BATS)

神经网络架构搜索——可微分搜索(DARTS)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI异构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • BiDet
    • 动机
      • 方法
        • 信息瓶颈(IB)
        • Learning Sparse Object Priors
      • 实验
        • 消融实验
        • 实验对比
    相关产品与服务
    图像识别
    腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档