社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。
@依耶塔•朱丽 问:
索尼的研究人员在224秒内(使用多达2176个GPU)成功训练了ImageNet/ResNet-50,并在ABCI 集群上没有明显的精度损失。
论文原址:https://arxiv.org/pdf/1811.05233.pdf
对此,你如何看待?
来自社友的回答
▼▼▼
@菠萝菠萝
据说索尼的秘密武器是这两件加速装备: 1)针对大批次(batch)训练不稳定问题的批次大小控制。这是什么意思呢?在训练过程中逐渐提升批次的整体大小——每当训练的损失图变“平”,就提大批次,以避开局部最小值。 2)降低了梯度同步的通信开销(2D-Torus all-reduce),一种“高效的”通信拓扑结构,可以很好地利用上千个 GPU 的带宽。
@丛末
Facebook 使用 256 个Tesla P100 GPU,在 1 小时内训练完ImageNet/ResNet-50;日本 Perferred Network 公司 Chainer 团队,15 分钟训练好 ImageNet/ResNet-50 ;腾讯机智团队,6.6 分钟训练好 ImageNet/ResNet-50。 索尼这个速度确实非常厉害,但是用的 GPU 好多啊~~
@Peter_Dong
索尼大法好~