http://ai.yanxishe.com/page/question
(文末有福利哦)
@ 依耶塔•朱丽 提问:如何看待索尼公司提出一种新的大规模分布式训练方法,在224秒内成功训练 ImageNet?
近日,索尼发布新的方法,在ImageNet数据集上,使用多达2176个GPU,在224秒内成功训练了ResNet-50,刷新了纪录。
索尼的研究人员在224秒内(使用多达2176个GPU)成功训练了ImageNet/ResNet-50,并在ABCI 集群上没有明显的精度损失。
论文原址:https://arxiv.org/pdf/1811.05233.pdf
对此,你如何看待?
来自社友的讨论
▼▼▼
@Peter_Dong
索尼大法好~(PS:此处应有姨父的微笑)
@ 丛末
Facebook 使用 256 个Tesla P100 GPU,在 1 小时内训练完ImageNet/ResNet-50;日本 Perferred Network 公司 Chainer 团队,15 分钟训练好 ImageNet/ResNet-50 ;腾讯机智团队,6.6 分钟训练好 ImageNet/ResNet-50。 索尼这个速度确实非常厉害,但是用的 GPU 好多啊~~
@ 菠萝菠萝
据说索尼的秘密武器是这两件加速装备: 1)针对大批次(batch)训练不稳定问题的批次大小控制。这是什么意思呢?在训练过程中逐渐提升批次的整体大小——每当训练的损失图变“平”,就提大批次,以避开局部最小值。 2)降低了梯度同步的通信开销(2D-Torus all-reduce),一种“高效的”通信拓扑结构,可以很好地利用上千个 GPU 的带宽。