专栏首页机器之心ECCV 2018 | 港科腾讯等提出Bi-Real net:超XNOR-net 10%的ImageNet分类精度

ECCV 2018 | 港科腾讯等提出Bi-Real net:超XNOR-net 10%的ImageNet分类精度

机器之心发布

作者:Zechun Liu,Baoyuan Wu,Wenhan Luo,Xin Yang,Wei Liu,Kwang-Ting Cheng

这项工作由中国香港科技大学,腾讯 AI lab,以及华中科技大学合作完成,目的是提升二值化卷积神经网络(1-bit CNN)的精度。虽然 1-bit CNN 压缩程度高,但是其当前在大数据集上的分类精度与对应的实值 CNN 相比有较大的精度下降。本文提出的 Bi-Real net 用 shortcut 传递网络中已有的实数值,从而提高二值化网络的表达能力,并且改进了现有的 1-bit CNN 训练方法。试验结果表明,18 层 Bi-Real net 在 imagenet 数据集上达到 56.4%的 top-1 分类精度,比 baseline XNOR Net 相对高了 10%。并且更深的 34 层 Bi-Real net 达到了 62.4%的 top-1 分类精度。

地址:https://arxiv.org/pdf/1808.00278.pdf

深度卷积神经网络(CNN)由于精度高在视觉任务中已经有非常广泛的应用,但是 CNN 的模型过大限制了它在很多移动端的部署。模型压缩也因此变得尤为重要。在模型压缩方法中,将网络中的权重和激活都只用+1 或者-1 来表示将可以达到理论上的 32 倍的存储空间的节省和 64 倍的加速效应。由于它的权重和激活都只需要用 1bit 表示,因此极其有利于硬件上的部署和实现。

然而现有的二值化压缩方法在 imagenet 这样的大数据集上会有较大的精度下降。我们认为,这种精度的下降主要是有两方面造成的。1. 1-bit CNN 的表达能力本身很有限,不如实数值的网络。2. 1-bit CNN 在训练过程中有导数不匹配的问题导致难以收敛到很好的精度。

针对这两个问题,我们分别提出了解决方案。

1. 通过分析我们发现,尽管输入 1-bit 卷积层的参数和激活值都是二值化的,但经过 xnor 和 bitcout 之后,网络内部会产生实数值,但是这个实数值的输出如果经过下一层 1-bit 卷积就又会被二值化,造成极大的信息丢失。

通过打印网络内部的由激活值组成的特征图也可以发现这一个问题

左图是传统神经网络,连续灰度的特征图每次经过 1-bit 卷积的时候,都会被二值化。所以我们提出在特征图在被二值化之前,利用 shortcut 来传递这些实数值的特征图,这样就可以大大地保留网络中的信息量,提高网络的表达能力。

2. 除此之外,我们分析了原有的二值化网络的训练方法,发现原有训练方法在对于激活值的求导和对于参数的更新存在导数不匹配的问题。我们针对激活值的求导和参数更新问题分别提出了解决方案。

(1)在对激活值求导的时候,由于二值化激活值的 sign 函数不可导,所以在前人(Binary Net)采用的方法是利用 clip(-1,x,1) 的导数来拟合 sign 的导数,但是这样造成的效果就是,网络在正向计算 loss 的时候所看到的是一个以 sign 为非线性函数的网络,而在反向计算 gradients 的时候是根据一个以 clip 为非线性函数的网络进行计算的。由于 clip 函数与 sign 函数有差距,这种计算方式会带来所谓的导数值不匹配的问题。基于这个,我们提出用二阶拟合 sign 的 ApproxSign 的导数来作为 sign 的导数,从而缩小导数值的不匹配问题。这个带来了约 12% 的性能提升。

(2)而在对二值化参数进行更新的时候,由于二值化参数是离散的,导数值太小往往不足以改变它的符号,因此前人采用的方法是存储实数值的参数,在更新的时候将网络根据二值参数计算出来的导数更新实数值参数,在正向传播过程中,用 sign 将实数值参数二值化,得到更新后的二值化参数。

但是这样的更新方式的实质是,将对于二值化参数求得的导数值加在存储的实数值。而在将导数二值化的时候,sign 函数其实只考虑了所存储的实数参数的符号,而没有考虑存储使出参数的量级,由于一些训练上的考虑,实数值网络内部的参数值,往往集中在 0 附近,而直接把它二值化到+1 或者-1,会导致网络计算导数值所参考的参数和网络实际更新的参数有很大差距,使得网络难于收敛到较高精度。

基于这个观察,我们提出,在训练的时候,将网络中存储的实数值的量级计入考虑。

根据用实数值参数的绝对值平均值计算的标量乘以实数值参数的符号作为网络计算导数的二值化参数。这种方法大大缩小了二值化参数与网络内部存储的用于更新的实值参数之间的差距,达到 23% 的网络精度值相对提升。

而更加有意思的是,由于 BatchNorm 层的存在,这个帮助训练的标量,其实在正向传播的时候可以直接被 BatchNorm 层归一化。因此,在测试即部署训练好的二值化的网络到移动端的时候,并不需要这一实值标量。

(3)此外我们还提出了针对二值化网络的初始化方法。从二值化参数更新的方法里也可以看出,内部所存储的实数值代表了二值化参数能改变符号的可能性,因此初始化的实数值选取非常重要。之前的工作都是直接采用随机初始化(XnorNet)或者是直接用以 ReLU 为非线性函数的实数值网络初始化。我们发现,如果采用 Clip 函数替换 ReLU 函数来进行初始化,将进一步带来性能提升。

实验结果

从表中的比较可以看到, 本文提出的 Bi-Real net 比 state-of-the-art Xnor Net 精度由显著提升。

并且 Bi-Real net 比 Xnor net 需要更少的存储空间和计算资源。

本文为机器之心发布,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 完善强化学习安全性:UC Berkeley提出约束型策略优化新算法(附代码)

    选自BAIR Blog 作者:Joshua Achiam 机器之心编译 参与:Smith、黄小天、邱陆陆 强化学习作为深度学习的一个强大分支成就卓然,在电子游戏...

    机器之心
  • 业界 | 华为推出新型HiSR:移动端的超分辨率算法

    机器之心发布 作者:Mr. AI 近日,华为推出了 HiSR 超分辨率技术,该模型借助第一款人工智能手机芯片 Kirin 970 和深度学习算法将低分辨率图片转...

    机器之心
  • CVPR 2018 | 牛津大学&Emotech首次严谨评估语义分割模型对对抗攻击的鲁棒性

    机器之心
  • Python3.6.5标准库文档(完整中文版)—内置函数(三)

    True如果对象参数显示为可调用,False则返回, 如果不是。如果这返回true,那么调用失 败仍然是可能的,但如果它是false,调用对象将永远不会成功。请...

    python鱼霸霸
  • [静电答疑时间] 这些Sketch使用问题,你知道怎么解决吗?

    静电说:最近攒了不少小伙伴的Sketch使用问题(也有设计上的问题),各式各样的,大部分我都在SketchChina.com中国社区做了解答。那么这篇文章,咱们...

    用户5009027
  • [康乐优化]]kangle 3311后台添加防cc攻击代码

    Youngxj
  • HTML5的Histroy API

    比较典型的是GitHub,在点击代码文件夹和文件时,会发现它的url地址栏变换了、标题栏变化了、前进后退按钮也变化了(跟新开了一个新页面感觉一样),但体验起来很...

    meteoric
  • leetcode 15 3sum

    leetcode 15,大概就是给一个若干整数组成的数组,求出其中3个的和为0的组数。

    flytam
  • 高维数据 | R语言数据可视化之日历图

    日历图,在环境与生态指标的动态监测中应用普遍,特别适用于显示不同时间段的指标情况。比如污染物中重金属含量、空气中PM2.5变化情况。在金融行业中检测股票收...

    黑妹的小屋
  • Flask的集中控制

    想通过一个统一的机制,同时允许一些公共的逻辑 {% if args["NoUser"] %} 无用户! {% else %} <!DOCTYPE htm...

    用户1075292

扫码关注云+社区

领取腾讯云代金券