专栏 | MSRA视觉组最新研究:可变形卷积网络

MSRA 视觉组

作者:代季峰、齐浩之、熊郁文、李益、张国栋、胡翰、危夷晨

近日一篇名为《可变形卷积网络(deformable convolutional networks)》的论文在业内引起了极大的关注,这篇文章对此项研究进行了解读。读者可点击阅读原文下载此论文。

摘要

由于构造卷积神经网络 (CNN) 所用的模块中几何结构是固定的,其几何变换建模的能力本质上是有限的。在我们的工作中,我们引入了两种新的模块来提高卷积神经网络 (CNN) 对变换的建模能力,即可变形卷积 (deformable convolution) 和可变形兴趣区域池化 (deformable ROI pooling)。它们都是基于在模块中对空间采样的位置信息作进一步位移调整的想法,该位移可在目标任务中学习得到,并不需要额外的监督信号。新的模块可以很方便在现有的卷积神经网络 (CNN) 中取代它们的一般版本,并能很容易进行标准反向传播端到端的训练,从而得到可变形卷积网络 (deformable convolutional network)。大量的实验验证了我们的方法在目标检测和语义分割这些复杂视觉任务上的有效性。代码将会公布。

Figure 1 展示了卷积核大小为 3x3 的正常卷积和可变形卷积的采样方式,(a) 所示的正常卷积规律的采样 9 个点(绿点),(b)(c)(d) 为可变形卷积,在正常的采样坐标上加上一个位移量(蓝色箭头),其中 (c)(d) 作为 (b) 的特殊情况,展示了可变形卷积可以作为尺度变换,比例变换和旋转变换的特殊情况

Figure 2 展示了可变形卷积框架,首先通过一个小卷积层(绿色)的输出得到可变形卷积所需要的位移量,然后将其作用在卷积核(蓝色)上,达到可变形卷积的效果。

Figure 3 展示了可变形兴趣区域池化框架。首先通过标准的兴趣区域池化(绿色)获得兴趣区域对应的特征,该特征通过一个全连接层得到兴趣区域每个部位的位移量。用该位移作用在可变形兴趣区域池化(蓝色)上,以获得不局限于兴趣区域固定网格的特征

Figure 4 展示了两层结构,拥有标准固定感受野的卷积层 (a) 与拥有自适应感受野的可变性卷积层。最上方是两个在不同大小的物体上的激活单元,中间是该单元所需的采样位置,最下方是中间的采样点分别所需的采样位置

Figure 5 对可变形卷积的效果进行了可视化,其中左中右分别展示了激活单元(绿点)倒推三层可变形卷积层以后在背景/小物体/大物体上的所采样的点

Figure 6 对可变形兴趣区域池化的效果进行可视化,使用了 R-FCN,兴趣区域网格大小为 3x3,可以发现现在池化区域基本覆盖在物体上。

Table 1 在各种方法和各种数据集上,使用不同层数的可变形卷积对结果带来的影响,其中 DeepLab 在 VOC2012 与 Cityscapes 的训练集上进行训练,在验证集上进行测试,class-aware RPN, Faster R-CNN 与 R-FCN 在 VOC2007 与 VOC2012 的训练验证集上进行训练,在 VOC2007 的测试集上进行测试。

Table 2 在使用可变形卷积与可变形兴趣区域池化以后,class-aware RPN,Faster RCNN,R-FCN 在 COCO 数据集上的结果,训练使用 trainval 数据集,测试使用 test-dev 数据集,其中 M 表示多尺度训练,B 表示迭代边界框平均。

本文为机器之心专栏文章,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏郭耀华‘s Blog

平均精度均值(mAP)——目标检测模型性能统计量

  在机器学习领域,对于大多数常见问题,通常会有多个模型可供选择。当然,每个模型会有自己的特性,并会受到不同因素的影响而表现不同。

1042
来自专栏深度学习之tensorflow实战篇

神经网络中的学习速率如何理解

特征缩放 实际当我们在计算线性回归模型的时候,会发现特征变量x,不同维度之间的取值范围差异很大。这就造成了我们在使用梯度下降算法的时候,由于维度之间的差异使得J...

3926
来自专栏深度学习与计算机视觉

学习SVM(二) 如何理解支持向量机的最大分类间隔

学习SVM(一) SVM模型训练与分类的OpenCV实现 学习SVM(二) 如何理解支持向量机的最大分类间隔 学习SVM(三)理解SVM中的对偶问题 ...

2749
来自专栏人工智能LeadAI

边缘检测论文笔记

摘要:这篇论文提出了一种基于FCNN和深度监督网络的新的边缘检测算法HED,它解决了两个重要的问题,1)整体图片的训练和预测,2)多尺度多层级的特征学习。HED...

2372
来自专栏AI科技评论

学界 | OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

AI 科技评论按:OpenAI 的研究人员们近日发布了一个高度优化的 GPU 计算内核,它可以支持一种几乎没被人们探索过的神经网络架构:带有稀疏块权重的网络。取...

3606
来自专栏小鹏的专栏

反向传播与它的直观理解

为了感谢大神,我是跪在电脑前fork的。 问题描述与动机: 大家都知道的,其实我们就是在给定的图像像素向量x和对应的函数f(x),然后我们希望能够计算f在...

2029
来自专栏机器学习算法原理与实践

支持向量机原理(五)线性支持回归

    在前四篇里面我们讲到了SVM的线性分类和非线性分类,以及在分类时用到的算法。这些都关注与SVM的分类问题。实际上SVM也可以用于回归模型,本篇就对如何将...

1063
来自专栏企鹅号快讯

OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

原标题:OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销 ? 雷锋网 AI 科技评论按:OpenAI 的研究人员们近日发布了一个高度优化的 GPU...

2168
来自专栏量化投资与机器学习

深度学习应用于交易

● 我们想预测未来股票走势 ● 监督学习 训练数据中的每个示例是由输入向量(特征)和期望输出值(标签)组成。 监督学习算法分析训练数据和近似函数,可用于映射新的...

3345
来自专栏Brian

机器学习性能度量

---- 概述 我们在进行机器学习时需要衡量机器学习的优劣和本身模型的准确程度,比如简单的衡量数据的准确率和错误率,但是我们更关心的是模型的泛化能力的指标,即基...

35811

扫码关注云+社区

领取腾讯云代金券