训练史上最佳GAN用了512块TPU，一作自述：这不是算法进步，是算力进步

量子位

发布于 2018-10-26 16:32:45

7320

发布于 2018-10-26 16:32:45

文章被收录于专栏：量子位量子位

铜灵编译整理量子位出品 |

最近，一场“大GAN（BigGAN）”浪潮让机器学习界的行家沸腾了一次。看到这个生成图片质量足以以假乱真的神经网络，网友齐声称赞“算法好棒”。

这篇还在双盲审中的ICLR 19论文一作现身，实名反对这种看法。

在接受外媒FastCompany采访时，一作Andrew Brock表示，大GAN成功的关键，不在于算法的改进，而是计算力的进步。

计算力

大GAN出自论文Large Scale GAN Training for High Fidelity Natural Image Synthesis，除了能生成128×128小图之外，大GAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

效果如此超脱凡GAN，不止是因为大GAN模型参数多，更是因为训练规模大。它的参数是前人的2-4倍，批次大小是前人的8倍。

“这些模型所需的主要不是算法的改进，而是计算力的进步。当你增加模型容量并增大每步所显示的图像数量时，你就会得到双重组合带来的效果。”论文一作Andrew Brock说。

换句话说，通过增加更多节点增加神经网络的复杂性，Brock能够创造出准确率更高的系统和模型纹理，然后将这些单独的纹理结合起来生成更大的形状，比如一只完整的小猫或者小狗。

方法不错，效果很好，两者之中，需要的是怎样的算力？

Brock说是512块谷歌TPU。

在这场实验中，Brock等人生成512像素图像，需要的是512块谷歌TPU，并且训练时间会持续24到48个小时。

光有TPU加持可能还不够，你还得找一个电量充足的地方。大致估算一下，如果每个TPU每个小时需要200瓦的电量，那么在Brock的512像素实验中，每个TPU将耗费2450到4915度电，相当于一个普通美国家庭大约半年内的用电量。

看来，普通人和机器学习高手的差距，可能不仅仅是几个算法之间的差距那么简单了……

别人家的实习生

虽然团队在9月末版的论文中没有署名，但能一口气用512块TPU用于研究，找遍全球也没有几家公司有这样的经济实力。

现在，团队终于公布了三位研究人员分别为Andrew Brock、谷歌DeepMind研究员Jeff Donahue和Karen Simonyan。

在刀光剑影的机器学习界有句土话：别人家的实习生，从未让我失望过。没错，大GAN团队的一作，就是一位实习生。

Brock目前还就读于赫瑞瓦特大学（Heriot-Watt University），量子位翻看了这位同学的推特，发现虽然还是学生，但已经被多方大牛关注着：

谷歌大牛Goodfellow、PyTorch之父Soumith Chintala、谷歌大脑东京网红研究员hardmaru、特斯拉AI负责人Andrej Karpathy、《纽约时报》资深记者Cade Metz，都已经成为Brock的粉丝……

传送门

最后，附论文地址： https://arxiv.org/pdf/1809.11096.pdf

不过，要想复现这篇论文，可能难了点~

— 完 —

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2018-10-11，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度