专栏首页Petrichor的专栏思考: 根据 图片数据集 规律性 灵活设计 卷积结构

思考: 根据 图片数据集 规律性 灵活设计 卷积结构

观察

针对不同问题所采集的图片数据集往往具有一定规律性:

  1. 如果为 平视拍摄(例如普通相机拍摄),那么人们往往倾向于把要关注的事物(如人脸)置于 画面中央
  2. 如果为 -45°俯视拍摄(例如监控摄像机拍摄),那么同类实例(如行人)往往呈现 近大远小

现有卷积结构设计

现有的卷积结构大多 一视同仁 地进行 视野感受:

缺陷

对整幅图片进行的 无差别卷积 意味着 注意力的平摊

思考

设计一种 有差别卷积

  1. 平视拍摄 时,可以对 画面中央 采用 小卷积核减少 细节信息 丢失
  2. -45°俯视拍摄 时,可以使用 近大远小 的不同卷积核,以 增加 远距离个体 的 识别精度

实现

为了避免重新设计框架接口引起的不必要麻烦,可采用 卷积结果 相覆盖 的思路。

平视图片

先用 大卷积核 对输入的整张 feature map 进行第一轮的常规卷积:

再用稍小的卷积核对 feature map 中心区域 进行 第二轮 更精细的 常规卷积。并用第二轮卷积结果 替换 第一轮卷积结果中心区域 的数据值:

由此即可实现 “差别对待” 的卷积操作。

-45°俯视图片

先用 大卷积核 对输入的整张 feature map 进行第一轮的常规卷积:

再用稍小的卷积核对 feature map 中上部区域 进行 第二轮 更精细的 常规卷积。并用第二轮卷积结果 替换 第一轮卷积结果中上部区域 的数据值:

再用更小的卷积核对 feature map 顶部区域 进行 第三轮 更更精细的 常规卷积。并用第三轮卷积结果 替换 之前卷积结果顶部区域 的数据值:

由此即可实现 “差别对待” 的卷积操作。

适用范围

该方法仅可适用于前几个网络层。

因为越往深去,每个网络层输入的 feature map 中,单个数值映射到原图像的感受野会越大,乃至大到覆盖大半个原图像。那么这个时候,有差别卷积操作 也就不可行了。

附加

当然,也可以在卷积核滑窗的stride(平移步长)上大做文章。比如在 feature map 的 不重要区域 增大stride减少 低性价比计算 的次数,从而 节省 GPU劳动力 。这里就不赘述了。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度学习: 感受野 (receptive field)

    感受野的计算 主要与 卷积层 和 池化层 的 窗口大小 (size)、移动步长 (stride) 以及 填充 (padding) 有关。

    JNingWei
  • 深度学习: convolution (卷积)

    卷积层是没有“厚度”一说的。如果非要有,那么假设一个卷积层由10个滤波器(假设每个滤波器有16通道)组成,那么该卷积层的“厚度”即为10。和输入输出数据那种只需...

    JNingWei
  • 深度学习: 网络超参数设定

    卷积时在 图像每一维([batch, in_height, in_width, in_channels])的步长,这是一个一维的向量,长度4。

    JNingWei
  • 轻量级神经网络MobileNet,从V1到V3

    zhuanlan.zhihu.com/c_1113861154916601856

    SIGAI学习与实践平台
  • 开发 | 变形卷积核、可分离卷积?卷积神经网络中十大拍案叫绝的操作

    AI 科技评论按:本文作者Professor ho,原文载于其知乎主页,AI 科技评论获其授权发布。 从2012年的AlexNet发展至今,科学家们发明出各种各...

    AI科技评论
  • 推荐 | 深度学习反卷积最易懂理解

    普通图像反卷积,跟深度学习中的反卷积是一回事吗?别傻傻分不清!其实它们根本不是一个概念

    OpenCV学堂
  • 深度学习-卷积神经网络原理

    卷积神经网络又称作(ConvNet, CNN),它的出现解决了人工智能图像识别的难题,图像识别数据量大,并且在识别的过程中很难保留原有的信息,因此卷积的作用就体...

    用户7760819
  • 【Pytorch 】笔记五:nn 模块中的网络层介绍

    疫情在家的这段时间,想系统的学习一遍 Pytorch 基础知识,因为我发现虽然直接 Pytorch 实战上手比较快,但是关于一些内部的原理知识其实并不是太懂,这...

    阿泽 Crz
  • 卷积层

    深度学习基础理论-CNN篇 卷积层 卷积层(convolution layer)是卷积神经网络中的基础操作,甚至在网络最后起分类作用的全连接层在工程实现时也...

    用户1386409
  • 【论文笔记】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

    目前的卷积神经网络普遍使用3×3的卷积神经网络,通过堆叠3×3的卷积核和下采样层,会在减少图像的大小的同时增加感受野,使用小尺度的卷积核存在两个问题:

    绝命生

扫码关注云+社区

领取腾讯云代金券