深度卷积神经网络压缩

用户1324186

发布于 2019-11-19 17:49:44

6220

发布于 2019-11-19 17:49:44

文章被收录于专栏：媒矿工厂

本文是来自Stanford Compression Workshop 2019的演讲，作者是来自MIT的助理教授韩松。本次演讲的主要内容是深度卷积神经网络压缩。深度学习的一个挑战是模型太大，对计算资源的消耗极大，很难在手机等嵌入式设备上进行部署，同时也很难以在网络上实时下载；另一个挑战就是深度学习模型对能源的消耗极大，比如AlphaGo每场比赛需要消耗3000美元的电费，而韩松的工作就是使AI更高效：低延迟、高吞吐量、低耗、自动设计和鲁棒。在演讲中，韩松从三个方面讲解了模型压缩：神经网络的内存带宽、工程师的人力资本、分布式网络训练消耗的带宽。

在第一个方面，韩松首先介绍了模型压缩中的模型剪枝，他将神经网络中绝对值趋近于零的神经元去除，从而将密集的神经网络模型剪枝为稀疏的神经网络模型。人类的大脑中也有类似“训练”和“剪枝”的现象，刚出生的婴儿约有50 万亿神经元突触，出生1年的婴儿增加到约1000 万亿神经元突触，而成年人却减少到约500 万亿神经元突触。然后韩松介绍了模型压缩中的量化，使用量化可以减少每个神经元的比特数。通过结合模型剪枝和量化，在不损害模型精度的前提下，可以达到较高模型压缩率。模型尺寸的减小可以使得原本要放在DRAM（一般为片外的主存储器，读写慢，成本低）上的模型，现在可以放到SRAM（一般为片上的高速缓冲存储器，读写快，成本高）上，提高模型推演时数据的读取速度。虽然模型尺寸减小了，但是由于现在一般的硬件设备（CPU和GPU）对低比特稀疏矩阵运算的支持有限，所以在这些硬件设备上需要先将压缩后的模型解压后再进行运算，因此模型推演速度并不会变快。为了利用模型的稀疏与低比特性质，韩松的团队自己设计了能快速进行低比特稀疏矩阵运算的硬件，并将其商业化。

对于第二个方面，模型压缩技术需要为神经网络的各层设计压缩策略（如各层的压缩率），因此手工设计耗时耗力。韩松的团队利用强化学习，根据目标任务和硬件自动设计模型压缩策略，其模型压缩率和设计速度都优于人类手工设计。除了对模型进行压缩，韩松的团队还使用强化学习直接根据目标任务和硬件学习高效紧凑的神经网络结构。

对于第三个方面，韩松的团队使用深度梯度压缩技术加速分布式网络训练。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-11-14，如有侵权请联系 cloudcommunity@tencent.com 删除

文件存储