学界 | 微软亚洲研究院提出两大创新模块，构建可变形卷积神经网络

AI科技评论

发布于 2018-03-12 14:57:44

6630

发布于 2018-03-12 14:57:44

论文摘要

由于用于构建卷积神经网络（CNNs）的各个模块具有较为固定的几何结构，从而在根本上限制了 CNNs 算法对几何变换的建模。在《Deformable Convolutional Networks》这篇论文中，来自微软亚洲研究院的研究员们提出了两种全新的模块 Deformable convolution 和 Deformable RoI pooling 用于提升 CNNs 算法对几何变换的建模能力。

上图展示了一个 3 x 3 大小的 Deformable convolution 结构

Deformable convolution 和 Deformable RoI pooling 两种模块构建的思想分别是：

在提供了额外偏移的情况下增加模块中的空间采样位置（见 Figure 2）；
在没有额外监督的情况下从目标任务学习偏移（见 Figure 3）。

上图展示了一个 3 x 3 大小的 Deformable RoI pooling 结构

值得一提的是，这两个模块都可以轻而易举地取代现有卷积神经网络（CNNs）中的相对应模块，并且也可以通过标准的反向传播算法进行端到端（End-to-End）的训练从而产生可变形的卷积网络（Deformable convolutional networks）。

上图中(a)展示了传统卷积操作中两层固定的感受野，而(b)展示可变形卷积操作中两层可自适应的感受野。(a)与(b)两图遵循相同的结构，自上而下分别是：1、最顶层的图片中展示两个激活单元，它们分位于不同形状与大小的物体中，而它们的输入来自于一个3x3大小的滤波器；2、中间的图片展示了两个3x3大小的滤波器在前一个特征图（feature map）上的采样位置，并且其中依然有两个激活单元被高亮出来；3、最底层的图片中展示了在前一个特征图上两个层级的3x3大小的滤波器的采样位置，其中有两组采样位置被高亮出来，它们分别对应于上一层图片中的高亮单元。

微软亚洲研究院的研究员们已经通过大量的实验验证了该新方法对于物体检测和语义分割这两个复杂视觉任务具有有效性，并且相关的实验代码也将被公开出来。

本文由AI科技评论编译，原文地址：Deformable Convolutional Networks（https://arxiv.org/pdf/1703.06211.pdf）

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2017-04-06，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度