学界 | 微软亚洲研究院提出两大创新模块,构建可变形卷积神经网络

论文摘要

由于用于构建卷积神经网络(CNNs)的各个模块具有较为固定的几何结构,从而在根本上限制了 CNNs 算法对几何变换的建模。在《Deformable Convolutional Networks》这篇论文中,来自微软亚洲研究院的研究员们提出了两种全新的模块 Deformable convolution 和 Deformable RoI pooling 用于提升 CNNs 算法对几何变换的建模能力。

上图展示了一个 3 x 3 大小的 Deformable convolution 结构

Deformable convolution 和 Deformable RoI pooling 两种模块构建的思想分别是:

  • 在提供了额外偏移的情况下增加模块中的空间采样位置(见 Figure 2);
  • 在没有额外监督的情况下从目标任务学习偏移(见 Figure 3)。

上图展示了一个 3 x 3 大小的 Deformable RoI pooling 结构

值得一提的是,这两个模块都可以轻而易举地取代现有卷积神经网络(CNNs)中的相对应模块,并且也可以通过标准的反向传播算法进行端到端(End-to-End)的训练从而产生可变形的卷积网络(Deformable convolutional networks)。

  • 上图中(a)展示了传统卷积操作中两层固定的感受野,而(b)展示可变形卷积操作中两层可自适应的感受野。(a)与(b)两图遵循相同的结构,自上而下分别是:1、最顶层的图片中展示两个激活单元,它们分位于不同形状与大小的物体中,而它们的输入来自于一个3x3大小的滤波器;2、中间的图片展示了两个3x3大小的滤波器在前一个特征图(feature map)上的采样位置,并且其中依然有两个激活单元被高亮出来;3、最底层的图片中展示了在前一个特征图上两个层级的3x3大小的滤波器的采样位置,其中有两组采样位置被高亮出来,它们分别对应于上一层图片中的高亮单元。

微软亚洲研究院的研究员们已经通过大量的实验验证了该新方法对于物体检测和语义分割这两个复杂视觉任务具有有效性,并且相关的实验代码也将被公开出来。

本文由AI科技评论编译,原文地址:Deformable Convolutional Networks(https://arxiv.org/pdf/1703.06211.pdf)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

Python中的统计假设检验速查表

本文是一个机器学习项目中最流行的统计假设检验的速查表,包含使用Python接口的示例。

1196
来自专栏宏伦工作室

深度有趣 | 04 图像风格迁移

图像风格迁移是指,将一幅内容图的内容,和一幅或多幅风格图的风格融合在一起,从而生成一些有意思的图片

976
来自专栏深度学习与计算机视觉

Object Detection系列(五) R-FCN

Object Detection系列(一) R-CNN Object Detection系列(二) SPP-Net Object Detection系...

3976
来自专栏null的专栏

简单易学的机器学习算法——极限学习机(ELM)

一、极限学习机的概念        极限学习机(Extreme Learning Machine) ELM,是由黄广斌提出来的求解单隐层神经网络的算法。 EL...

4626
来自专栏云时之间

深度学习与神经网络:正则化小栗子(附代码)

在上一篇文章中我们简单说了说AIC,BIC和L1,L2正则化的东西,而今天这篇文章,我们将着重说说正则化.

3966
来自专栏机器学习、深度学习

人脸检测--Face Detection with End-to-End Integration of a ConvNet and a 3D Model

Face Detection with End-to-End Integration of a ConvNet and a 3D Model ECCV201...

1917
来自专栏磐创AI技术团队的专栏

入门 | Tensorflow实战讲解神经网络搭建详细过程

1334
来自专栏技术小站

吴恩达深度学习笔记 course4 week 4 特殊应用:人脸识别与神经风格转换

output:如果图片是对应的K人中的一人,则输出此人ID,否则验证不通过    ,人脸识别比人脸验证更难一些,如果一个人脸验证系统的正确率为99%,即错误率为...

802
来自专栏专知

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器

即使是非计算机行业, 大家也知道很多有名的神经网络结构, 比如CNN在处理图像上非常厉害, RNN能够建模序列数据. 然而CNN, RNN之类的神经网络结构本身...

4197
来自专栏人工智能头条

基于Python的卷积神经网络和特征提取

1854

扫码关注云+社区