关于感受野的总结

SIGAI-AI学习交流群的目标是为学习者提供一个AI技术交流与分享的平台

SIGAI特约作者

mileistone

腾讯算法工程师

研究方向:物体检测

摘要

感受野是卷积神经网络里面最重要的概念之一,为了更好地理解卷积神经网络结构,甚至自己设计卷积神经网络,对于感受野的理解是必备的。

定义

感受野被定义为卷积神经网络特征所能看到输入图像的区域,换句话说特征输出受感受野区域内的像素点的影响。

比如下图(该图为了方便,将二维简化为一维),这个三层的神经卷积神经网络,每一层卷积核的kernel_size = 3 ,stride = 1,那么最上层特征所对应的感受野就为如图所示的7x7。

感受野示例[1]

计算方式

其中:

RF表示特征感受野大小,

l表示层数,

表示输入层,

  • 第一层特征,感受野为3

第1层感受野[1]

  • 第二层特征,感受野为5

第2层感受野[1]

  • 第三层特征,感受野为7

第3层感受野[1]

如果有dilated conv的话,计算公式

更上一层楼

上文所述的是理论感受野,而特征的有效感受野(实际起作用的感受野)实际上是远小于理论感受野的,如下图所示。具体数学分析比较复杂,不再赘述,感兴趣的话可以参考论文[2]。

有效感受野示例[2]

下面我从直观上解释一下有效感受野背后的原因。以一个两层

,的网络为例,该网络的理论感受野为5,计算流程可以参加下图。其中x为输入,w为卷积权重,o为经过卷积后的输出特征。

很容易可以发现,x1,1只影响第一层feature map中的

;而x3,3会影响第一层feature map中的所有特征,即

第一层的输出全部会影响第二层的

于是x1,1只能通过

来影响

;而x3,3能通过

来影响

。显而易见,虽然x1,1和x3,3都位于第二层特征感受野内,但是二者对最后的特征

的影响却大不相同,输入中越靠感受野中间的元素对特征的贡献越大。

两层3x3 conv计算流程图

应用

分类

Xudong Cao写过一篇叫《A practical theory for designing very deep convolutional neural networks》的technical report,里面讲设计基于深度卷积神经网络的图像分类器时,为了保证得到不错的效果,需要满足两个条件:

Firstly, for each convolutional layer, its capacity of learning more complex patterns should be guaranteed; Secondly, the receptive field of the top most layer should be no larger than the image region.

其中第二个条件就是对卷积神经网络最高层网络特征感受野大小的限制。

目标检测

现在流行的目标检测网络大部分都是基于anchor的,比如SSD系列,v2以后的yolo,还有faster rcnn系列。

基于anchor的目标检测网络会预设一组大小不同的anchor,比如32x32、64x64、128x128、256x256,这么多anchor,我们应该放置在哪几层比较合适呢?这个时候感受野的大小是一个重要的考虑因素。

放置anchor层的特征感受野应该跟anchor大小相匹配,感受野比anchor大太多不好,小太多也不好。如果感受野比anchor小很多,就好比只给你一只脚,让你说出这是什么鸟一样。如果感受野比anchor大很多,则好比给你一张世界地图,让你指出故宫在哪儿一样。

《S3FD: Single Shot Scale-invariant Face Detector》(该文分析讲解详见SIGAI技术短文《人脸检测算法之S3FD》)这篇人脸检测器论文就是依据感受野来设计anchor的大小的一个例子,文中的原话是

we design anchor scales based on the effective receptive field

《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》这篇论文在设计多尺度anchor的时候,依据同样是感受野,文章的一个贡献为

We introduce the Multiple Scale Convolutional Layers (MSCL) to handle various scales of face via enriching receptive fields and discretizing anchors over layers

引用:

[1]convolutional nerual networks

[2]Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

本文为SIGAI原创

如需转载,欢迎发消息到本订号

原文发布于微信公众号 - SigAI(SIGAICN)

原文发表时间:2018-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

前沿 | CNN取代RNN?当序列建模不再需要循环网络

在这篇博文中,我们来探讨循环网络模型和前馈模型之间的取舍。前馈模型可以提高训练稳定性和速度,而循环模型表达能力更胜一筹。有趣的是,额外的表现力似乎并没有提高循环...

1431
来自专栏量子位

一文看懂迁移学习:怎样用预训练模型搞定深度学习?

瀚宸 编译自 Analytics Vidhya 量子位 出品 | 公众号 QbitAI 引言 跟传统的监督式机器学习算法相比,深度神经网络目前最大的劣势是什么?...

9155
来自专栏机器学习算法工程师

AI从业者搞懂---这10种深度学习方法---老婆孩子热炕头

作者:王抒伟 编辑:王抒伟 首先,让我们来看看主要有啥 1 1.机器学习 过去的十年里已经爆炸了。 大伙几乎每天都会在计算机科学计划,行业会议和各大公众号看到...

4738
来自专栏人工智能LeadAI

想搞机器学习,不会特征工程?

引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应...

3053
来自专栏自然语言处理

一起走进条件随机场4(NLP重点理论)

条件随机场(CRF):是给定一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场,条件随机场可用于不同预测问...

1361
来自专栏计算机视觉战队

哇~这么Deep且又轻量的Network,实时目标检测

最近挺对不住关注“计算机视觉战队”平台的小伙伴,有段时间没有给大家分享比较硬比较充实的“干货”了,在此向大家表示抱歉,今天抽空之余,想和大家说说目标的实时检测。

962
来自专栏专知

【思考】为什么我们需要一个比反向传播更好的学习算法?

【导读】如今,反向传播算法(Backpropagation)可以说是神经网络模型的标配学习方法,可以在网络的学习过程中计算损失函数的偏导数,从而进一步用随机梯度...

3525
来自专栏人工智能头条

深度学习-LeCun、Bengio和Hinton的联合综述(上)

1152
来自专栏AI科技评论

学界 | 美图云联合中科院提出基于交互感知注意力机制神经网络的行为分类技术 | ECCV 2018

以往注意机制模型通过加权所有局部特征计算和提取关键特征,忽略了各局部特征间的强相关性,特征间存在较强的信息冗余。为解决此问题,来自美图云视觉技术部门和中科院自动...

1232
来自专栏数据派THU

一文读懂神经网络(附PPT、视频)

本文共6500字,建议阅读10分钟。 本文从神经网络的发展历史出发,为你介绍感知器模型、前馈神经网络及BP算法。 [导读] 提起神经网络,你会想到什么?关于深度...

5289

扫码关注云+社区

领取腾讯云代金券