伯克利用120万美元设备24分钟训练ImageNet,刷新Facebook成绩

李林 编译整理 量子位 报道 | 公众号 QbitAI

最近,加州大学伯克利分校的研究人员用120万美元的设备,24分钟完成了ImageNet的训练。

在最近公布的论文ImageNet Training in 24 Minutes中,伯克利的Yang You、James Demmel、Kurt Keutzer、TACC(德克萨斯高级计算中心)的Zhao Zhang、和加州大学戴维斯分校的Cho-Jui Hsieh展示了他们的最新成果。

他们在论文中说,目前快速训练深度神经网络(DNN)所遇到的瓶颈,主要是批次(batch)过小。比如说常用的批次大小是512,这就很难充分利用很多处理器的性能。

但是,如果将批次增大,通常会导致结果准确率明显降低。

而伯克利的研究人员在这篇论文中,使用了You, Gitman, Ginsburg, 2017提出的LARS(Layer-wise Adaptive Rate Scaling)算法,将批次大幅度增大,达到比如说32k的大小。

通过这种方法,他们只用了24分钟,就在ImageNet上完成了100个epoch的AlexNet训练,完成90个epoch的ResNet-50训练则用来1小时。

这个成绩,和Facebook之前(Goyal et al 2017)达到的一样,但是,伯克利团队的设备预算只有120万美元,而Facebook的设备花了410万美元。

附上文提到的几篇论文地址:

ImageNet Training in 24 Minutes arxiv.org/abs/1709.05011

提出LARS的You, Gitman, Ginsburg, 2017 https://arxiv.org/abs/1708.03888

Facebook的1小时训练ImageNet https://arxiv.org/abs/1706.02677

这篇论文昨天在Twitter上引发了一轮关注和讨论,不少人吐槽“只有120万美元”是怎样一种炫富。

不过,谷歌大脑的David Ha解释说,120万美元看起来很多,但是和昂贵的科学家、工程师团队比起来,对企业来说简直太便宜了。

这个ImageNet Training in 24 Minutes的论文标题,也招来了不少质疑。Twitter网友们纷纷认为它虽然说不上错,也确实是有点标题党。

特斯拉AI总监Andrej Karpathy说,直接在标题上写个24分钟过于简略了,作者们应该明确指出24分钟是AlexNet的时间,而不是ResNet-50,他们训练ResNet-50并没有比Facebook更快。

David Ha紧接着补刀说这种做法有点dishonest。

论文第一作者Yang You在twitter上回应了这些质疑。他说,如果论文中有错误,他们在更新下一版时会作出修改,120万美元,是按英特尔、英伟达设备的官方价格算出来的,这两家都是他们实验室的赞助商。

而对关于论文标题直接写了个24分钟,没有提及这是AlexNet的训练结果一事,Yang You回应说,其实AlexNet比ResNet更难规模化,comm/comp比值太高了。在这项工作之前,人们最高只能把AlexNet的批次大小扩大到1024。

?最后,附David Ha为此论文所作的诗:

I wanna be a billionaire so frickn’ bad Buy all the GPUs I never had I wanna be on cover of Forbes magazine Smiling next Oprah and the Queen

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉战队

如何给非专业人士讲解什么是深度学习?

去年开始,工作中需要做许多有关 AI 科普的事情。很长时间里一直在想,该如何给一个没有 CS 背景的人讲解什么是深度学习,以便让一个非技术的投资人、企业管理者、...

13710
来自专栏机器之心

李飞飞高徒:斯坦福如何打造基于视觉的智能医院?

每年,死于医院内感染的人数比车祸还要多。这意味着去医院就医比不去医院病情加重的概率要高 1/30。

8910
来自专栏量子位

无人机送货充电包教包会!TensorFlow复合目标强化学习教程

王瀚宸 编译自 O’reilly 原文作者:Arthur Juliani 量子位 出品 | 公众号 QbitAI 本文用到的所有python代码都在GitHub...

34860
来自专栏数据派THU

独家 | 一文读懂复杂网络(应用、模型和研究历史)

前言 随着近几年关于复杂网络(Complex network)理论及其应用研究的不断深入,已有大量关于复杂网络的文章发表在Science,ature,RL,NA...

1.2K50
来自专栏AI科技大本营的专栏

一文教你如何用Python预测股票价格

翻译 | AI科技大本营(rgznai100) 参与 | 刘畅 编辑 | 周翔 【AI科技大本营导读】最近,A股尤其是上证指数走势凌厉,让营长有种身在牛市中的错...

71570
来自专栏量子位

谁是真凶?《CSI:犯罪现场调查》正帮助AI提高断案能力

问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 曾经的王牌美剧《CSI:犯罪现场调查》,现在成了AI用来提高断案推理能力的试验场。 这部剧集厉不厉害...

35130
来自专栏cloudskyme

算法——贝叶斯

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概...

380100
来自专栏AI科技评论

学界 | Ian Goodfellow和Papernot半年三篇博文,对机器学习的安全隐私来了个大起底

AI 科技评论按:随着人工智能研究的不断发展,由机器学习模型在背后提供支持的功能越来越多地开始商业化,最终用户的生活里机器学习能造成的影响也越来越大。这时候,机...

446120
来自专栏Python中文社区

回归树的原理及Python实现

提到回归树,相信大家应该都不会觉得陌生(不陌生你点进来干嘛[捂脸]),大名鼎鼎的 GBDT 算法就是用回归树组合而成的。本文就回归树的基本原理进行讲解,并手把手...

10320
来自专栏新智元

荐书 | Christopher Bishop 新书:基于模型的机器学习

【新智元导读】机器学习大牛Christopher Bishop的新书《基于模型的机器学习》近日推出了抢先预览版,用浅显的生活实例介绍了机器学习中的多个经典概念,...

37770

扫码关注云+社区

领取腾讯云代金券