专栏首页贾志刚-OpenCV学堂手撕 | 深度神经网络卷积层计算加速与优化

手撕 | 深度神经网络卷积层计算加速与优化

阅读本文大概需要 6 min 左右

传统卷积层计算

01

首先我们定义符号F()函数为卷积函数

一维卷积:F(n,m)

n代表输出的维度,m代表滤波器的维度

二维卷积:F(n*m,r*s)

n*m代表输出的维度,r*s代表滤波器的维度

下面我们具体谈谈针对二维的卷积加速

传统的卷积层加速:

对于最简单的F(n*m,r*s)

最传统暴力的卷积运算:

时间成本:
1. 乘法:(n*m*r*s)
2. 加法:(n*m*(r – 1)*(s – 1))
空间成本:
1. 输入层:(n+r-1)*(m + s - 1)
2. 卷积核:(r*s)

Imcol+GEMM

02

为了更好的理解,首先给出这幅图:

推广到三维,也就是Image:C*H*W

最后一页没画,但是基本上就是Filter Matrix乘以Feature Matrix的转置,得到输出矩阵Cout x (H x W),就可以解释为输出的三维Blob(Cout x H x W)。

相对于传统的暴力的卷积算法而言,此算法将卷积变成了矩阵乘法,为加速提供了便捷条件,能很容易用硬件实现加速。但是内存有冗余。

Imcol+MEC初级版

03

由于是3x3卷积核,且步长为1。因此,循环取出A、B、C、D、E这5个子矩阵,每个矩阵的维度都是: 输入高度x3

将A、B、C、D、E按照行优先展开并拼成一个大的中间矩阵L, L的维度则为:5x21。从L中循环取出P、Q、R、S、T这5个子矩阵,并计算5次矩阵乘法,就得到了最终的结果。从上面的示例中我们不难看出,MEC的解决思路在于将im2col这一过程分成了Height和Width两部分,于是需要存储的中间矩阵也大大减小了。可能带来的问题就是,原来的一次矩阵乘法,现在会变成多次小矩阵乘法。虽然有利于并行计算,但也失去了BLAS库计算大矩阵乘法的优势。

F( n*m,r*s)
原本内存:( n+r – 1) *( m+s – 1)
Imcol+GEMM转换需要内存大小:r * s * n * m
Imcol+MEC初版需要内存大小:m * ( r * ( n + s – 1 ) )

Imcol+MEC高级版

04

考虑了batchsize和channel

Winograd方法

05

说完了这些方法,我们来说说Winograd方法吧,加速卷积的不二之选。本文重在于利用Winograd方法加速卷积,顺便选取内存和速度兼顾的方案

公式的推导,这里选用F( 3 *3,2*2)

用多项式的中国剩余定理推导可知:

在其中,我用的是F( 4 * 4 , 3 * 3 )

输入的tensor:[N,W,H,C]

卷积核的tensor:[C_out,kernal_W,kernel_H,C_in]

图中K = C_out、T = N

Kernals中的众矩阵通过从[C_out,3,3,C] -> [C_out,6,6,C]

是一个变形后的卷积核,kernal1 = [1,6,6,128],上图中有128个卷积核,因为输出的Tensor:[N,W,H,128],抛开上面具体的实例,为了推导后续公式,这里我们只研究

对于输入矩阵16X16、卷积核 3X3,采用 F( 4 X 4,3X3 ) 的加速方案:

明确输出矩阵14 X 14 首先将卷积核通过GgG(T)变成 6X6的矩阵D

现在的问题变成了如何将点乘的集合变成更简易可表达的形式。再看下面这幅图:

故我们得到的最后的结果是:

所以最后我们统计一下所作的乘法:

传统:3 X 3 X 128 X 14 X 14 = 225792
Winograd:6 X 6 X 128 X 16 = 73728
浮点数运算倍数:225792 / 73728 = 3.0625

改进:如若有剩余,考虑用其他矩阵相乘方法

本文分享自微信公众号 - OpenCV学堂(CVSCHOOL),作者:张锦伦

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何通俗易懂地解释图像卷积?

    卷积这个概念,很早以前就学过,但是一直没有搞懂。教科书上通常会给出定义,给出很多性质,也会用实例和图形进行解释,但究竟为什么要这么设计,这么计算,背后的意义是什...

    OpenCV学堂
  • 理解CNN卷积层与池化层计算

    深度学习中CNN网络是核心,对CNN网络来说卷积层与池化层的计算至关重要,不同的步长、填充方式、卷积核大小、池化层策略等都会对最终输出模型与参数、计算复杂度产生...

    OpenCV学堂
  • 推荐 | 深度学习反卷积最易懂理解

    普通图像反卷积,跟深度学习中的反卷积是一回事吗?别傻傻分不清!其实它们根本不是一个概念

    OpenCV学堂
  • 卷积神经网络(一)——卷积、边缘化与池化层

    卷积神经网络(一) ——卷积、边缘化与池化层 (原创内容,转载请注明来源,谢谢) 一、概述 卷积神经网络网络(Convolutional Neural Netw...

    用户1327360
  • 独家 | 由第一原理导出卷积

    TLDR:你有没有想过卷积有什么特别之处?在这篇文章中,我从第一原理中推导出卷积,并展示它的平移对称性。

    数据派THU
  • ARM NEON卷积神经网络加速简介-技术创作101训练营

    参考相关网站: http://cs231n.github.io/convolutional-networks/

    fancyxu
  • 漫谈图神经网络 (二)

    在从图(Graph)到图卷积(Graph Convolution): 漫谈图神经网络 (一)中,我们简单介绍了基于循环图神经网络的两种重要模型,在本篇中,我们将...

    Houye
  • 百度语音合成模型Deep Voice3

    Deep Voice3是由百度提出的一个全新的全卷积TTS架构。百度的主要工作分为如下五个方面:

    mathor
  • (虚)继承类的内存占用大小

    (虚)继承类的内存占用大小 首先,平时所声明的类只是一种类型定义,它本身是没有大小可言的。 因此,如果用sizeof运算符对一个类型名操作,那得到的是具有该类...

    用户1215536
  • 专访 | 五一出游赏花,如何优雅地解释百度细粒度识别方案

    机器之心

扫码关注云+社区

领取腾讯云代金券