伯克利用120万美元设备24分钟训练ImageNet，刷新Facebook成绩

量子位

发布于 2018-03-26 17:14:46

5780

发布于 2018-03-26 17:14:46

文章被收录于专栏：量子位

李林编译整理量子位报道 | 公众号 QbitAI

最近，加州大学伯克利分校的研究人员用120万美元的设备，24分钟完成了ImageNet的训练。

在最近公布的论文ImageNet Training in 24 Minutes中，伯克利的Yang You、James Demmel、Kurt Keutzer、TACC（德克萨斯高级计算中心）的Zhao Zhang、和加州大学戴维斯分校的Cho-Jui Hsieh展示了他们的最新成果。

他们在论文中说，目前快速训练深度神经网络（DNN）所遇到的瓶颈，主要是批次（batch）过小。比如说常用的批次大小是512，这就很难充分利用很多处理器的性能。

但是，如果将批次增大，通常会导致结果准确率明显降低。

而伯克利的研究人员在这篇论文中，使用了You, Gitman, Ginsburg, 2017提出的LARS（Layer-wise Adaptive Rate Scaling）算法，将批次大幅度增大，达到比如说32k的大小。

通过这种方法，他们只用了24分钟，就在ImageNet上完成了100个epoch的AlexNet训练，完成90个epoch的ResNet-50训练则用来1小时。

这个成绩，和Facebook之前（Goyal et al 2017）达到的一样，但是，伯克利团队的设备预算只有120万美元，而Facebook的设备花了410万美元。

附上文提到的几篇论文地址：

ImageNet Training in 24 Minutes arxiv.org/abs/1709.05011

提出LARS的You, Gitman, Ginsburg, 2017 https://arxiv.org/abs/1708.03888

Facebook的1小时训练ImageNet https://arxiv.org/abs/1706.02677

这篇论文昨天在Twitter上引发了一轮关注和讨论，不少人吐槽“只有120万美元”是怎样一种炫富。

不过，谷歌大脑的David Ha解释说，120万美元看起来很多，但是和昂贵的科学家、工程师团队比起来，对企业来说简直太便宜了。

这个ImageNet Training in 24 Minutes的论文标题，也招来了不少质疑。Twitter网友们纷纷认为它虽然说不上错，也确实是有点标题党。

特斯拉AI总监Andrej Karpathy说，直接在标题上写个24分钟过于简略了，作者们应该明确指出24分钟是AlexNet的时间，而不是ResNet-50，他们训练ResNet-50并没有比Facebook更快。

David Ha紧接着补刀说这种做法有点dishonest。

论文第一作者Yang You在twitter上回应了这些质疑。他说，如果论文中有错误，他们在更新下一版时会作出修改，120万美元，是按英特尔、英伟达设备的官方价格算出来的，这两家都是他们实验室的赞助商。

而对关于论文标题直接写了个24分钟，没有提及这是AlexNet的训练结果一事，Yang You回应说，其实AlexNet比ResNet更难规模化，comm/comp比值太高了。在这项工作之前，人们最高只能把AlexNet的批次大小扩大到1024。

?最后，附David Ha为此论文所作的诗：

I wanna be a billionaire so frickn’ bad Buy all the GPUs I never had I wanna be on cover of Forbes magazine Smiling next Oprah and the Queen

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-19，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

神经网络

git

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

神经网络

git

登录后参与评论

0 条评论

热度