最近,加州大学伯克利分校的研究人员用120万美元的设备,24分钟完成了ImageNet的训练。
在最近公布的论文ImageNet Training in 24 Minutes中,伯克利的Yang You、James Demmel、Kurt Keutzer、TACC(德克萨斯高级计算中心)的Zhao Zhang、和加州大学戴维斯分校的Cho-Jui Hsieh展示了他们的最新成果。
他们在论文中说,目前快速训练深度神经网络(DNN)所遇到的瓶颈,主要是批次(batch)过小。比如说常用的批次大小是512,这就很难充分利用很多处理器的性能。
但是,如果将批次增大,通常会导致结果准确率明显降低。
而伯克利的研究人员在这篇论文中,使用了You, Gitman, Ginsburg, 2017提出的LARS(Layer-wise Adaptive Rate Scaling)算法,将批次大幅度增大,达到比如说32k的大小。
通过这种方法,他们只用了24分钟,就在ImageNet上完成了100个epoch的AlexNet训练,完成90个epoch的ResNet-50训练则用来1小时。
这个成绩,和Facebook之前(Goyal et al 2017)达到的一样,但是,伯克利团队的设备预算只有120万美元,而Facebook的设备花了410万美元。
附上文提到的几篇论文地址:
ImageNet Training in 24 Minutes arxiv.org/abs/1709.05011
提出LARS的You, Gitman, Ginsburg, 2017 https://arxiv.org/abs/1708.03888
Facebook的1小时训练ImageNet https://arxiv.org/abs/1706.02677
这篇论文昨天在Twitter上引发了一轮关注和讨论,不少人吐槽“只有120万美元”是怎样一种炫富。
不过,谷歌大脑的David Ha解释说,120万美元看起来很多,但是和昂贵的科学家、工程师团队比起来,对企业来说简直太便宜了。
这个ImageNet Training in 24 Minutes的论文标题,也招来了不少质疑。Twitter网友们纷纷认为它虽然说不上错,也确实是有点标题党。
特斯拉AI总监Andrej Karpathy说,直接在标题上写个24分钟过于简略了,作者们应该明确指出24分钟是AlexNet的时间,而不是ResNet-50,他们训练ResNet-50并没有比Facebook更快。
David Ha紧接着补刀说这种做法有点dishonest。
论文第一作者Yang You在twitter上回应了这些质疑。他说,如果论文中有错误,他们在更新下一版时会作出修改,120万美元,是按英特尔、英伟达设备的官方价格算出来的,这两家都是他们实验室的赞助商。
而对关于论文标题直接写了个24分钟,没有提及这是AlexNet的训练结果一事,Yang You回应说,其实AlexNet比ResNet更难规模化,comm/comp比值太高了。在这项工作之前,人们最高只能把AlexNet的批次大小扩大到1024。
?最后,附David Ha为此论文所作的诗:
I wanna be a billionaire so frickn’ bad Buy all the GPUs I never had I wanna be on cover of Forbes magazine Smiling next Oprah and the Queen