ICML 2021 | 稀疏训练新方法：In-Time Over-Parameterization

Amusi

发布于 2021-06-09 15:47:46

1.4K0

发布于 2021-06-09 15:47:46

文章被收录于专栏：CVer

作者：刘世伟 | 已授权转载（源：知乎） https://zhuanlan.zhihu.com/p/376304225

很幸运，ICML2021的两篇稀疏训练 (Sparse Taining) 投稿都被接受了。这应该是读博这几年最令我开心的事了！尤其是RNN这篇，2 wa, 2 wj，最后居然被接受。ICML的rebuttal还是很有用的。

1. 稀疏训练中过参数化平替:

Do We Actually Need Dense Over-Parameterization? In-Time Over-Parameterization in Sparse Training

https://arxiv.org/abs/2102.02887

2. 基于RNN的稀疏训练：

Selfish Sparse RNN Training

https://arxiv.org/abs/2101.09048

在这里着重介绍一下我们提出来的新概念：In-Time Over-Parameterization

01 背景

过参数化 (Over-Parameterization) 已经被很多研究者在实践和理论上证明是神经网络成功的重要因素。但随着SOTA模型大小 (GPT-3，CogView) 的指数型爆炸，越来越多的科研工作者和公司都足够的资源去训练这些强大却昂贵的模型，更别说改进了。

在这里，我们提出了“时间序列上的过参数 (In-Time Over-Parameterization, ITOP)”来做为Over-Parameterization的平替。与传统的参数空间上的过参数化不同，ITOP是在训练过程中逐渐实现过参数化的。示意图如下：

02 什么是ITOP?

ITOP的训练过程要满足主要两点：

要保证模型在整个训练过程中都是稀疏的，包括前向传播和后向传播。也就是说模型从头到尾都是under-parameterzied。
在训练过程中，我们通过不断的进行参数扩展 (prune旧的参数，grow新的参数)，最终达到一个在时间维度上遍历所有参数的效果，即In-Time Over-Parameterization。

ITOP的训练过程很简单，如下：

随机初始化一个稀疏的模型，该模型的稀疏度为S。
用标准的训练方法训练改稀疏模型∆T iteration。
Prune掉一部分不重要的参数，并根据一定的标准去长出来同样多的新参数。

step2，3会一直重复，尽可能的去扩展到所有的参数。这里注意因为我们的模型从头到尾一直保持着同样的稀疏S，所以ITOP可以同时实现training和inference的加速。

03 ITOP有什么用呢?

ITOP可以很大程度上提高稀疏训练模型的表达能力。众所周知，直接从头训练一个稀疏的模型是很难的，尤其是对于高度稀疏的模型。
实现训练和推理上的双重加速。
ITOP可以用来很好的解释最近很火的dynamic sparse training [1,2,3,4,5] 成功的原因。
ITOP可以有效的减缓模型的overfitting和提高模型的generalization。

04 实验结果

(1) Improve the expressibility of sparse training

如下图所示，横坐标表示的是被扩展的参数的数量和总体参数数量的比率R_s。随着越来越多的参数被扩展，稀疏模型的表现逐渐提高。更值得注意的是，当所有的参数都被扩展到的时候，R_s约等于1的时候，稀疏模型的精度也大致收敛。

(2)Training efficiency:

(3) explain the success of dynamic sparse trianing (DST)

为了解释DST的成功，我们提出了In-Time Over-Parameterization Hypothesis，并且系统的验证了这个假设。

(4) preventing overfitting and improving generalization

(5) SOTA sparse training performance

05 未来工作

作为Dense Over-Parameterization的平替，ITOP应该可以解决很多Dense Over-Parameterization带来的问题。欢迎各路大神一起交流合作。

[1] Mocanu, Decebal Constantin, et al. "Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science."Nature communications9.1 (2018): 1-12.

[2] Dettmers, Tim, and Luke Zettlemoyer. "Sparse networks from scratch: Faster training without losing performance."arXiv preprint arXiv:1907.04840(2019).

[3] Evci, Utku, et al. "Rigging the lottery: Making all tickets winners."International Conference on Machine Learning. PMLR, 2020.

[4] Liu, Shiwei, et al. "Sparse evolutionary deep learning with over one million artificial neurons on commodity hardware."Neural Computing and Applications33.7 (2021): 2589-2604.

[5] Mostafa, Hesham, and Xin Wang. "Parameter efficient training of deep convolutional neural networks by dynamic sparse reparameterization."International Conference on Machine Learning. PMLR, 2019.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-06-01，如有侵权请联系 cloudcommunity@tencent.com 删除

https