这篇获奖论文名为The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks,提出了一种叫作“彩票假设”(lottery ticket hypothesis)的缩小方法。
此前,神经网络的剪枝技术能将网络的参数减少到90%,但此方法的弊端也很明显,即剪枝架构一开始的训练就相当困难。
MIT计算机科学与人工智能实验室(CSAIL)的研究人员表示,与其在后期修修剪剪,何必不在一开始就创建一个尺寸合适的网络呢?
他们将传统的深度学习方法比作乐透,训练大型神经网络就像在通过盲目随机选号中奖,而这种新的方法不采用这种大海捞针的方式,想在一开始就拿到最后中奖的号码。
于是乎,“彩票假设”问世。
他们发现,传统的剪枝技术会在神经网络子网络处动刀,让初始化后的子网络能够进行有效训练。
密集、随机初始化的前馈神经网络包含一些子网络,也就是中奖号码,当对其单独进行训练时,这些子网络能够在相似迭代次数中达到与原始网络比肩的准确率。
问题来了,如何找到这个中奖号码呢?总共分为四步:
在MNIST和CIFAR10数据集上,“中奖彩票”的大小是很多全连接和卷积前馈架构的10%~20%。
并且,比原始网络的学习速度更快:甚至准确度更高:
论文地址: https://arxiv.org/abs/1803.03635
这篇论文背后的研究人员只有两位。
一作为MIT的在读博士生Jonathan Frankle,在普林斯顿大学完成计算机科学的本科和研究生学习时,Frankle小哥曾去谷歌、微软、乔治城大学实习,主要研究人工智能、应用密码学和技术政策。
二作Michael Carbin为MIT电子工程和计算机科学的助理教授,此前在微软雷德蒙研究院的研究员,从事大规模深度学习系统的研究,包括优化和应用。
此前,Carbin的数篇论文被ICML19、OOPSLA18、LICS18等机器学习大会接收。
今年的ICLR最佳论文共有两篇,除了彩票假设外,还有一篇蒙特利尔大学 MILA 研究所和微软研究院的作品:
Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks,翻译过来就是《有序神经元:将树结构集成到循环神经网络》。
自然语言是一种有层次的结构:小的单元会嵌套在大单元里,比如短语会嵌套在句子中。当较大的单元关闭时,其中的小单元也必须关闭。
虽然标准的LSTM架构可以将不同的神经元在不同的时间阶段追踪信息,但在模型构成层次上差别不大。
在这篇论文中,研究人员提出,通过对神经元进行排序,增加这种归纳偏差,用一个控制输入和遗忘门的向量来确保当给定神经元更新时,跟随它的所有神经元也将按照顺序被更新。
这种全新的循环结构称为有序神经元 LSTM (ON-LSTM),在语言建模、无监督语法分析、目标语法评估和逻辑推理这四个不同的任务上取得了不错的性能。
论文地址: https://openreview.net/forum?id=B1l6qiR5F7
最后,附上ICLR 2019官网地址:
https://iclr.cc/
— 完 —