话题 | 如何看待索尼公司提出一种新的大规模分布式训练方法，在224秒内成功训练 ImageNet？

AI研习社

发布于 2018-12-14 10:29:17

4460

发布于 2018-12-14 10:29:17

文章被收录于专栏：AI研习社

http://ai.yanxishe.com/page/question

（文末有福利哦）

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题，欢迎进社区提问。

话不多说，直接上题

@ 依耶塔•朱丽提问：如何看待索尼公司提出一种新的大规模分布式训练方法，在224秒内成功训练 ImageNet？

近日，索尼发布新的方法，在ImageNet数据集上，使用多达2176个GPU，在224秒内成功训练了ResNet-50，刷新了纪录。

索尼的研究人员在224秒内（使用多达2176个GPU）成功训练了ImageNet/ResNet-50，并在ABCI 集群上没有明显的精度损失。

论文原址：https://arxiv.org/pdf/1811.05233.pdf

对此，你如何看待？

来自社友的讨论

▼▼▼

@Peter_Dong

索尼大法好~（PS：此处应有姨父的微笑）

@ 丛末

Facebook 使用 256 个Tesla P100 GPU，在 1 小时内训练完ImageNet/ResNet-50；日本 Perferred Network 公司 Chainer 团队，15 分钟训练好 ImageNet/ResNet-50 ；腾讯机智团队，6.6 分钟训练好 ImageNet/ResNet-50。索尼这个速度确实非常厉害，但是用的 GPU 好多啊~~

@ 菠萝菠萝

据说索尼的秘密武器是这两件加速装备： 1）针对大批次（batch）训练不稳定问题的批次大小控制。这是什么意思呢？在训练过程中逐渐提升批次的整体大小——每当训练的损失图变“平”，就提大批次，以避开局部最小值。 2）降低了梯度同步的通信开销（2D-Torus all-reduce），一种“高效的”通信拓扑结构，可以很好地利用上千个 GPU 的带宽。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-11-16，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI研习社微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

话题 | 如何看待索尼公司提出一种新的大规模分布式训练方法，在224秒内成功训练 ImageNet？

话题 | 如何看待索尼公司提出一种新的大规模分布式训练方法，在224秒内成功训练 ImageNet？

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题，欢迎进社区提问。

话不多说，直接上题

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐