作者:刘世伟 | 已授权转载(源:知乎) https://zhuanlan.zhihu.com/p/376304225
很幸运,ICML2021的两篇稀疏训练 (Sparse Taining) 投稿都被接受了。这应该是读博这几年最令我开心的事了!尤其是RNN这篇,2 wa, 2 wj,最后居然被接受。ICML的rebuttal还是很有用的。
1. 稀疏训练中过参数化平替:
2. 基于RNN的稀疏训练:
https://arxiv.org/abs/2101.09048
在这里着重介绍一下我们提出来的新概念:In-Time Over-Parameterization
过参数化 (Over-Parameterization) 已经被很多研究者在实践和理论上证明是神经网络成功的重要因素。但随着SOTA模型大小 (GPT-3,CogView) 的指数型爆炸,越来越多的科研工作者和公司都足够的资源去训练这些强大却昂贵的模型,更别说改进了。
在这里,我们提出了“时间序列上的过参数 (In-Time Over-Parameterization, ITOP)”来做为Over-Parameterization的平替。与传统的参数空间上的过参数化不同,ITOP是在训练过程中逐渐实现过参数化的。示意图如下:
ITOP的训练过程要满足主要两点:
ITOP的训练过程很简单,如下:
step2,3会一直重复,尽可能的去扩展到所有的参数。这里注意因为我们的模型从头到尾一直保持着同样的稀疏S,所以ITOP可以同时实现training和inference的加速。
(1) Improve the expressibility of sparse training
如下图所示,横坐标表示的是被扩展的参数的数量和总体参数数量的比率R_s。随着越来越多的参数被扩展,稀疏模型的表现逐渐提高。更值得注意的是,当所有的参数都被扩展到的时候,R_s约等于1的时候,稀疏模型的精度也大致收敛。
(2)Training efficiency:
(3) explain the success of dynamic sparse trianing (DST)
为了解释DST的成功,我们提出了In-Time Over-Parameterization Hypothesis,并且系统的验证了这个假设。
(4) preventing overfitting and improving generalization
(5) SOTA sparse training performance
05 未来工作
作为Dense Over-Parameterization的平替,ITOP应该可以解决很多Dense Over-Parameterization带来的问题。欢迎各路大神一起交流合作。
[1] Mocanu, Decebal Constantin, et al. "Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science."Nature communications9.1 (2018): 1-12.
[2] Dettmers, Tim, and Luke Zettlemoyer. "Sparse networks from scratch: Faster training without losing performance."arXiv preprint arXiv:1907.04840(2019).
[3] Evci, Utku, et al. "Rigging the lottery: Making all tickets winners."International Conference on Machine Learning. PMLR, 2020.
[4] Liu, Shiwei, et al. "Sparse evolutionary deep learning with over one million artificial neurons on commodity hardware."Neural Computing and Applications33.7 (2021): 2589-2604.
[5] Mostafa, Hesham, and Xin Wang. "Parameter efficient training of deep convolutional neural networks by dynamic sparse reparameterization."International Conference on Machine Learning. PMLR, 2019.