学界 | 微软亚洲研究院提出两大创新模块,构建可变形卷积神经网络

论文摘要

由于用于构建卷积神经网络(CNNs)的各个模块具有较为固定的几何结构,从而在根本上限制了 CNNs 算法对几何变换的建模。在《Deformable Convolutional Networks》这篇论文中,来自微软亚洲研究院的研究员们提出了两种全新的模块 Deformable convolution 和 Deformable RoI pooling 用于提升 CNNs 算法对几何变换的建模能力。

上图展示了一个 3 x 3 大小的 Deformable convolution 结构

Deformable convolution 和 Deformable RoI pooling 两种模块构建的思想分别是:

  • 在提供了额外偏移的情况下增加模块中的空间采样位置(见 Figure 2);
  • 在没有额外监督的情况下从目标任务学习偏移(见 Figure 3)。

上图展示了一个 3 x 3 大小的 Deformable RoI pooling 结构

值得一提的是,这两个模块都可以轻而易举地取代现有卷积神经网络(CNNs)中的相对应模块,并且也可以通过标准的反向传播算法进行端到端(End-to-End)的训练从而产生可变形的卷积网络(Deformable convolutional networks)。

  • 上图中(a)展示了传统卷积操作中两层固定的感受野,而(b)展示可变形卷积操作中两层可自适应的感受野。(a)与(b)两图遵循相同的结构,自上而下分别是:1、最顶层的图片中展示两个激活单元,它们分位于不同形状与大小的物体中,而它们的输入来自于一个3x3大小的滤波器;2、中间的图片展示了两个3x3大小的滤波器在前一个特征图(feature map)上的采样位置,并且其中依然有两个激活单元被高亮出来;3、最底层的图片中展示了在前一个特征图上两个层级的3x3大小的滤波器的采样位置,其中有两组采样位置被高亮出来,它们分别对应于上一层图片中的高亮单元。

微软亚洲研究院的研究员们已经通过大量的实验验证了该新方法对于物体检测和语义分割这两个复杂视觉任务具有有效性,并且相关的实验代码也将被公开出来。

本文由AI科技评论编译,原文地址:Deformable Convolutional Networks(https://arxiv.org/pdf/1703.06211.pdf)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-04-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

机器学习新手必看十大算法

编译 机器之心 原文链接:https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for...

4286
来自专栏目标检测和深度学习

深度学习最新方法:Snapshot Ensembling以及OUT!随机加权平均才是未来!!!

2972
来自专栏机器之心

何恺明等研究者:真的需要减少ImageNet预训练吗?

ImageNet 图像预训练在各种视觉任务中一直都极为常见,我们会假定预训练模型的前面层级能抽取到足够的一般图像信息。因此保留预训练模型前面层级的权重就相当于迁...

692
来自专栏计算机视觉与深度学习基础

目标检测算法:RCNN、YOLO vs DPM

以下内容节选自我的研究报告。 1. 背景 目标检测(object detection)简单说就是框选出目标,并预测出类别的一个任务。它是一种基于目标几何和统计...

4226
来自专栏LhWorld哥陪你聊算法

【机器学习】--Adaboost从初始到应用

AdaBoost算法和GBDT(Gradient Boost Decision Tree,梯度提升决策树)算法是基于Boosting思想的机器学习算法。在Boo...

942
来自专栏计算机视觉战队

每日一学——最优化笔记(上)

简介 在上一节中,我们介绍了图像分类任务中的两个关键部分: 基于参数的评分函数。该函数将原始图像像素映射为分类评分值(例如:一个线性函数)。 损失函数。该函数能...

3197
来自专栏人工智能头条

李理:详解卷积神经网络

2137
来自专栏机器人网

机器学习十大算法:新手看了变老手

在机器学习中,有一种叫做「没有免费的午餐」的定理。简而言之,它指出没有任何一种算法对所有问题都有效,在监督学习(即预测建模)中尤其如此。

1394
来自专栏计算机视觉战队

每日一学——神经网络(下)

神经网络结构 灵活地组织层 将神经网络算法以神经元的形式图形化。神经网络被建模成神经元的集合,神经元之间以无环图的形式进行连接。也就是说,一些神经元的输出是另一...

3417
来自专栏机器之心

入门 | 区分识别机器学习中的分类与回归

3025

扫码关注云+社区