详解Google第二代TPU，既能推理又能训练，性能霸道 | Google I/O 2017

AI科技评论

发布于 2018-03-12 16:55:18

9670

发布于 2018-03-12 16:55:18

文章被收录于专栏：AI科技评论

AI科技评论消息，5月18日凌晨，Google CEO Sundar Pichai在I/O大会上正式公布了第二代TPU，又称Cloud TPU或TPU 2.0，这一基于云计算的硬件和软件系统，将继续支撑Google最前沿的人工智能技术。

第一代TPU于去年发布，它被作为一种特定目的芯片而专为机器学习设计，并用在了AlphaGo的人工智能系统上，是其预测和决策等技术的基础。随后，Google还将这一芯片用在了其服务的方方面面，比如每一次搜索都有用到TPU的计算能力，最近还用在了Google翻译、相册等软件背后的机器学习模型中。

今天凌晨，Google宣布第二代的TPU系统已经全面投入使用，并且已经部署在了Google Compute Engine平台上。它可用于图像和语音识别，机器翻译和机器人等领域。

新的TPU包括了四个芯片，每秒可处理180万亿次浮点运算。Google还找到一种方法，使用新的计算机网络将64个TPU组合到一起，升级为所谓的TPU Pods，可提供大约11500万亿次浮点运算能力。

强大的运算能力为Google提供了优于竞争对手的速度，和做实验的自由度。Google表示，公司新的大型翻译模型如果在32块性能最好的GPU上训练，需要一整天的时间，而八分之一个TPU Pod就能在6个小时内完成同样的任务。之所以开发新芯片，部分也是因为Google的机器翻译模型太大，无法如想要的那么快进行训练。

除了速度，第二代TPU最大的特色，是相比初代TPU它既可以用于训练神经网络，又可以用于推理。初代的TPU只能做推理，要依靠Google云来实时收集数据并产生结果，而训练过程还需要额外的资源。

机器学习的能力已经逐渐在消费级产品中体现出来，比如Google翻译几乎可以实时将英语句子变成中文，AlphaGo能以超人的熟练度玩围棋。所有这一切都要靠训练神经网络来完成，而这又需要计算能力。所以硬件越强大，得到的结果就越快。如果将每个实验的时间从几周缩短到几天或几个小时，就可以提高每个机器学习者快速迭代，并进行更多实验的能力。由于新一代TPU可以同时进行推理和训练，研究人员能比以前更快地部署AI实验。

过去十多年来，Google已经开发出很多新的数据中心硬件，其中包括服务器和网络设备，主要目的是扩张自己的在线帝国。而过去几年中，在AI方面Google也选择开发自己的硬件，为其软件做优化。神经网络是复杂的数学系统，通过分析大量数据来学习，这种系统从根本上改变了技术的构建和运行方式，影响范围也包括硬件。

在某种程度上，初代的TPU被设计来是为了更好地支持TensoFlow机器学习框架。而归功于Google在软硬件上的进步与集成，TensorFlow已经成为构建AI软件的领先平台之一。这种优化，再加上Google大脑及其DeepMind子公司的内部人才，正是Google在AI领域保持领先的部分原因。

芯片厂商NVidia的GPU几乎主宰了机器学习的市场，而现在，Google想通过专门设计用于训练神经网络的芯片，来改变市场提格局。

亚马逊和微软通过自己的云服务提供GPU处理，但他们不提供定制的AI芯片。

不过Google也不能因此而高枕无忧，因为短期内竞争就会加剧。目前已经有几家公司，包括芯片巨头英特尔和一大批初创公司，正在开发专门的AI芯片，它们都可能替代Google TPU。

首先开发出新的芯片并不能保证Google成功，要使用TPU 2.0，开发者要学习一种构建和运行神经网络的新方法。它不仅仅是一个新的芯片，TPU 2.0也是专门为TensorFlow设计。虽然Tensorflow是开源软件，但也有许多研究人员使用Torch和Caffe等类似的软件。新硬件需要新的软件优化，这需要不少时间。

在Google推出TPU 2.0的几周之前，Facebook的AI研究主管Yann LeCun质疑称，市场可能不需要新的AI专用芯片，因为研究者已经对使用GPU所需的工具非常熟悉了。新的硬件意味着新的生态系统。

另外，Google云服务的成功不仅取决于芯片的速度，以及使用的容易程度，还要考虑成本。所以，如果Google以比现有GPU服务更低的成本提供TPU服务，会得到更广泛的用户基础。

Google自己当然会使用新TPU系统，但也会将它的能力开放给其它公司使用。Google表示，不会将芯片直接出售，而是会通过其新的云服务（年底前公布）提供，任何开发者都可以使用新处理器带来的计算能力。

Google也重申了其对开源模式的承诺，表示会向同意发布研究结果的研究人员提供TPU资源，甚至可能开源代码。他甚至呼吁开发者加入TensorFlow Research Cloud计划，它会免费提供一组1000台TPU。

新TPU的速度优势肯定会吸引到不少研究人员，毕竟AI研究要在大量硬件上广泛试错。就此而言，Google愿意免费提供计算资源对全世界的AI研究者来说都是有好处的，当然，这对Google来说也是有好处的。

图片来自WIRED及THEVERGE

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-18，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

详解Google第二代TPU，既能推理又能训练，性能霸道 | Google I/O 2017

详解Google第二代TPU，既能推理又能训练，性能霸道 | Google I/O 2017

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐