伯克利用120万美元设备24分钟训练ImageNet,刷新Facebook成绩

李林 编译整理 量子位 报道 | 公众号 QbitAI

最近,加州大学伯克利分校的研究人员用120万美元的设备,24分钟完成了ImageNet的训练。

在最近公布的论文ImageNet Training in 24 Minutes中,伯克利的Yang You、James Demmel、Kurt Keutzer、TACC(德克萨斯高级计算中心)的Zhao Zhang、和加州大学戴维斯分校的Cho-Jui Hsieh展示了他们的最新成果。

他们在论文中说,目前快速训练深度神经网络(DNN)所遇到的瓶颈,主要是批次(batch)过小。比如说常用的批次大小是512,这就很难充分利用很多处理器的性能。

但是,如果将批次增大,通常会导致结果准确率明显降低。

而伯克利的研究人员在这篇论文中,使用了You, Gitman, Ginsburg, 2017提出的LARS(Layer-wise Adaptive Rate Scaling)算法,将批次大幅度增大,达到比如说32k的大小。

通过这种方法,他们只用了24分钟,就在ImageNet上完成了100个epoch的AlexNet训练,完成90个epoch的ResNet-50训练则用来1小时。

这个成绩,和Facebook之前(Goyal et al 2017)达到的一样,但是,伯克利团队的设备预算只有120万美元,而Facebook的设备花了410万美元。

附上文提到的几篇论文地址:

ImageNet Training in 24 Minutes arxiv.org/abs/1709.05011

提出LARS的You, Gitman, Ginsburg, 2017 https://arxiv.org/abs/1708.03888

Facebook的1小时训练ImageNet https://arxiv.org/abs/1706.02677

这篇论文昨天在Twitter上引发了一轮关注和讨论,不少人吐槽“只有120万美元”是怎样一种炫富。

不过,谷歌大脑的David Ha解释说,120万美元看起来很多,但是和昂贵的科学家、工程师团队比起来,对企业来说简直太便宜了。

这个ImageNet Training in 24 Minutes的论文标题,也招来了不少质疑。Twitter网友们纷纷认为它虽然说不上错,也确实是有点标题党。

特斯拉AI总监Andrej Karpathy说,直接在标题上写个24分钟过于简略了,作者们应该明确指出24分钟是AlexNet的时间,而不是ResNet-50,他们训练ResNet-50并没有比Facebook更快。

David Ha紧接着补刀说这种做法有点dishonest。

论文第一作者Yang You在twitter上回应了这些质疑。他说,如果论文中有错误,他们在更新下一版时会作出修改,120万美元,是按英特尔、英伟达设备的官方价格算出来的,这两家都是他们实验室的赞助商。

而对关于论文标题直接写了个24分钟,没有提及这是AlexNet的训练结果一事,Yang You回应说,其实AlexNet比ResNet更难规模化,comm/comp比值太高了。在这项工作之前,人们最高只能把AlexNet的批次大小扩大到1024。

?最后,附David Ha为此论文所作的诗:

I wanna be a billionaire so frickn’ bad Buy all the GPUs I never had I wanna be on cover of Forbes magazine Smiling next Oprah and the Queen

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏cloudskyme

算法——贝叶斯

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概...

35710
来自专栏AI科技大本营的专栏

一文教你如何用Python预测股票价格

翻译 | AI科技大本营(rgznai100) 参与 | 刘畅 编辑 | 周翔 【AI科技大本营导读】最近,A股尤其是上证指数走势凌厉,让营长有种身在牛市中的错...

5237
来自专栏新智元

荐书 | Christopher Bishop 新书:基于模型的机器学习

【新智元导读】机器学习大牛Christopher Bishop的新书《基于模型的机器学习》近日推出了抢先预览版,用浅显的生活实例介绍了机器学习中的多个经典概念,...

3637
来自专栏全栈数据化营销

品牌知觉图:精准找到空白市场定位,数据化衡量品牌效果

如何知道自己品牌留给客户的是什么印象呢?如何印证品牌推广和塑造的效果呢?如何有效寻找在品牌建设中的空白点和机会点呢? 这次就介绍在品牌建设中会经常用到的品牌知觉...

40411
来自专栏云社区全球资讯抢先看

新的算法将一键修复损坏的数字图像

技术可以使用人工神经网络的力量来一次处理单个图像中的多种类型的图像噪点和图像模糊。

1772
来自专栏专知

最新综述文章推荐:自然语言生成、深度学习算法、多媒体大数据分析

【导读】专知内容组整理了最近人工智能领域相关期刊的5篇最新综述文章,为大家进行介绍,欢迎查看! 1 ▌自然语言生成综述:任务,应用,评价 ---- ---- ...

6277
来自专栏量子位

无人机送货充电包教包会!TensorFlow复合目标强化学习教程

王瀚宸 编译自 O’reilly 原文作者:Arthur Juliani 量子位 出品 | 公众号 QbitAI 本文用到的所有python代码都在GitHub...

3416
来自专栏大数据挖掘DT机器学习

4步教你开发风控评分模型

作者简介 作者:郑旻圻 邹钰 刘巧莉 背景:数信互融-数据分析师 数信互融(IFRE):专注于互联网金融领域的风险量化、资产定价。基于互联网金融行业数据,结合...

1.3K8
来自专栏量子位

Google惊人研究:一组图片,就能强迫神经网络执行其他任务

722
来自专栏FreeBuf

如何构建一个反电信网络诈骗基础模型

网络诈骗,电信诈骗层出不穷,花样翻新,防不胜防,伤害普通百姓利益。本文通过对目前社会上关于网络电信诈骗新闻进行提取,从中分析当前网络诈骗发展趋势和关键因素,进而...

2036

扫码关注云+社区