AAAI 2018 | 阿里巴巴提出极限低比特神经网络,用于深度模型压缩和加速

选自arXiv

主要作者:冷聪 窦则胜 李昊 朱胜火 金榕

机器之心编译

国际知名的人工智能学术会议 AAAI 2018 即将于 2 月份在美国新奥尔良举办,据机器之心了解,阿里巴巴共有 11 篇论文被接收。在介绍的这篇论文中,阿里巴巴提出利用ADMM算法学习极限低比特神经网络的架构。

论文:Extremely Low Bit Neural Network: Squeeze the Last Bit Out with ADMM

论文地址:https://arxiv.org/pdf/1707.09870.pdf

研究背景

近年来,深度学习在人工智能领域取得了重大的突破。在计算机视觉、语音识别等诸多领域,深度神经网络 (DNN, Deep Neural Network) 均被证明是一种极具成效的问题解决方式。如卷积神经网络 (CNN, Convolutional neural network) 在计算机视觉诸多传统问题(分类、检测、分割)都超越了传统方法,循环神经网络 (RNN, Recurrent Neural Networks) 则在时序信号处理,如机器翻译,语音识别等超过传统方法。

在利用深度网络解决问题的时候人们常常倾向于设计更为复杂的网络收集更多的数据以期获得更高的性能。但是,随之而来的是模型的复杂度急剧提升,直观的表现是模型的层数越来越深,参数越来越多。这会给深度学习带来两个严重的问题:

(1) 随着模型参数的增多,模型的大小越来越大,给嵌入式端模型的存储带来了很大的挑战。

(2) 随着模型的增大,模型 inference 的时间越来越长,latency 越来越大。

以上两个问题给深度学习在终端智能设备上的推广带来了很大的挑战。比如,经典的深度卷积网络 VGG-16 的模型大小达到 528M,用户很难接受下载一个如此大的模型到手机或者其他终端设备上。同时,在一般的智能手机上,VGG-16 识别一张图像的时间高达 3000+ms,这个 latency 对于大多数用户来说也是难以接受的。此外,由于深度网络的计算量很大,运行深度网络的能耗很高,这对于手机等终端设备也是一个巨大的挑战。

所提出的算法

在这个工作中,我们提出一种基于低比特表示技术的神经网络压缩和加速算法。我们将神经网络的权重表示成离散值,并且离散值的形式为 2 的幂次方的形式,比如 {-4,-2,-1,0,1,2,4}。这样原始 32 比特的浮点型权重可以被压缩成 1-3 比特的整形权重,同时,原始的浮点数乘法操作可以被定点数的移位操作所替代。在现代处理器中,定点移位操作的速度和能耗是远远优于浮点数乘法操作的。

首先,我们将离散值权重的神经网络训练定义成一个离散约束优化问题。以三值网络为例,其目标函数可以表示为:

更进一步,我们在约束条件中引入一个 scale 参数。对于三值网络,我们将约束条件写成 {-a, 0, a}, a>0. 这样做并不会增加计算代价,因为在卷积或者全连接层的计算过程中可以先和三值权重 {-1, 0, 1} 进行矩阵操作,然后对结果进行一个标量 scale。从优化的角度看,增加这个 scale 参数可以大大增加约束空间的大小,这有利于算法的收敛。如下图所示:

对于三值网络而言,scale 参数可以将约束空间从离散的 9 个点扩增到 4 条直线。

为了求解上述约束优化问题,我们引入 ADMM 算法。在此之前,我们需要对目标函数的形式做一个等价变换。

其中 Ic 为指示函数,如果 G 符合约束条件,则 Ic(G)=0,否则 Ic(G) 为无穷大。该目标函数的增广拉格朗日形式为:

ADMM 算法将上述问题分成三个子问题进行求解,即

与其它算法不同的是,我们在实数空间和离散空间分别求解,然后通过拉格朗日乘子的更新将两组解联系起来。

第一个子问题需要找到一个网络权重最小化

在实验中我们发现使用常规的梯度下降算法求解这个问题收敛速度很慢。在这里我们使用 Extra-gradient 算法来对这个问题进行求解。Extra-gradient 算法包含两个基本步骤,分别是:

第二个子问题在离散空间中进行优化。通过简单的数学变换第二个子问题可以写成:

该问题可以通过迭代优化的方法进行求解。当 a 或 Q 固定时,很容易就可以获得 Q 和 a 的解析解。

实验结果

ImageNet 图像识别:我们分别在 Alexnet、VGG16、Resnet18、Resnet50、GoogleNet 等五个主流的 CNN 框架上验证了所提出的算法。实验中我们分别尝试了 Binary 网络、Ternary 网络、{-2, -1, 0, 1, 2}、{-4, -2, -1, 0, 1, 2, 4} 四种形式。在 Imagenet 上 Top-1 和 Top-5 准确度结果如下:

Alexnet 和 VGG16:

Resnet:

GoogleNet:

其中 BWN[1] 和 TWN[2] 为我们对比的两种 Binary 网络和 Ternary 网络量化方法。从这些结果可以看出,在各个网络框架下,我们的算法都显著超过对比算法。同时,当比特数达到 3 时,量化之后的网络精度相比于原始网络几乎可以达到无损。在 Alexnet 和 VGG16 这两个冗余度比较高的网络上,量化之后的网络甚至可以取得超过原始网络的精度,这是因为量化操作可以起到一个正则的作用,从而提高这类网络的泛化性能。

Pascal VOC 目标检测:我们在 SSD 检测框架下对算法进行验证,分别采用了 VGG16+SSD 和 Darknet+SSD 两种网络结构。对于检测任务,尝试了 Ternary 网络和 {-4, -2, -1, 0, 1, 2, 4} 两种量化形式。实验结果如下:

对于 Darknet 我们使用了两种设置,第一种设置中所有的权重进行相同的量化;第二种设置中,1x1 的卷积核使用 INT8 量化,即括号中的结果。和识别中的结果类似,在 VGG+SSD 结构中,我们的算法几乎可以做到无损压缩。

参考文献:

[1] Rastegari, M.; Ordonez, V.; Redmon, J.; and Farhadi, A. 2016. Xnor-net: Imagenet classification using binary convolutional neural networks. European Conference on Computer Vision.

[2] Li, F.; Zhang, B.; and Liu, B. 2016. Ternary weight networks. arXiv preprint arXiv:1605.04711.

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-01-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

神经网络浅讲:从神经元到深度学习

作者 | 计算机的潜意识 整理 | AI科技大本营(rgznai100) 神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神...

4047
来自专栏数据科学与人工智能

【深度学习】深度学习在图像识别中的研究进展与展望

深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深...

8198
来自专栏大数据挖掘DT机器学习

sklearn集成学习:如何调参?

---- Random Forest和Gradient Tree Boosting参数详解 2 如何调参?   2.1 调参的目标:偏差和方差的协调   2...

4847
来自专栏数据派THU

【独家】一文读懂聚类算法

1. 聚类的基本概念 1.1 定义 聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能...

3927
来自专栏目标检测和深度学习

94页论文综述卷积神经网络:从基础技术到研究前景

机器之心编译 参与:Panda 卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解。近日,约克大...

3867
来自专栏数据派THU

10大深度学习架构:计算机视觉优秀从业者必备(附代码实现)

? 来源:机器之心 作者:FAIZAN SHAIKH 本文长度为3000字,建议阅读5分钟 本文包括深度学习领域的最新进展、keras 库中的代码实现以及论文...

3409
来自专栏新智元

【AAAI Oral】阿里提出新神经网络算法,压缩掉最后一个比特

【新智元导读】在利用深度网络解决问题的时候人们常常倾向于设计更为复杂的网络收集更多的数据以期获得更高的性能。但是,随之而来的是模型的复杂度急剧提升,参数越来越多...

3936
来自专栏PaddlePaddle

卷积神经网络的压缩

正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分,本次将介绍卷积神经网络压缩的具体途径

1182
来自专栏机器之心

94页论文综述卷积神经网络:从基础技术到研究前景

选自arXiv 机器之心编译 参与:Panda 卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解...

3487
来自专栏机器之心

就喜欢看综述论文:情感分析中的深度学习

6539

扫码关注云+社区

领取腾讯云代金券