英伟达CEO手撕谷歌TPU：P80性能比它强2倍！

量子位

发布于 2018-03-22 15:16:00

7420

发布于 2018-03-22 15:16:00

文章被收录于专栏：量子位

李杉李林编译整理量子位出品 | 公众号 QbitAI

上周，Google发表论文，详解了神经网络推断专用芯片TPU的架构，还展示了一些性能数据，比如说：在推断任务中，TPU平均比英伟达的Tesla K80 GPU或英特尔至强E5-2699 v3 CPU速度快15至30倍左右。

英伟达CEO黄仁勋坐不住了：为什么跟K80比？不知道我们后来出了P40吗？

Google在论文中提到的Tesla K80和老黄要拿出来比的Tesla P40，都是英伟达推出的适用于服务器的GPU加速器。

K80发布于2012年（老黄说的），使用了Kepler（上上代）架构，英伟达对它的定位是“超级计算领域的性价比之选”；P40则是去年发布的，使用了Pascal架构，“专为加快超大规模的混合工作负载和具备强扩展能力的 HPC 数据中心的运行速度而设计”。

这两款处理器之间，隔了三年，隔了一代Maxwell架构的产品。在深度学习推断性能上，P40比K80高了26倍。

老黄看了Google的论文，表示不服。于是，老黄在公司官方博客上发了题为《人工智能推动数据中心加速计算技术崛起（AI Drives the Rise of Accelerated Computing in Data Centers）》的文章，高度赞扬了Google的人工智能技术。

然后用P40跟Google的TPU做了个对比，帮Google更新了一下数据：英伟达Tesla P40在GoogleNet推断任务中的性能比Google TPU高2倍。

不过，老黄更新的数据遭到了Twitter网友的无情吐槽，因为无论是能耗还是价格，P40都比TPU高出了不止2倍。

以下是老黄的手撕全文

谷歌最近发表的TPU论文得出了一个明确结论——如果没有加速计算，就无法扩大人工智能的应用范围。

如今的经济很大程度上依赖于世界各地的数据中心，而数据中心都在发生快速变化。但不久之前还不是这样，彼时的数据中心主要为网页、广告和视频内容服务。可如今，它们还要负责识别声音，探测视频流里的图像，并在我们有需求时提供有用的信息。

这些能力都源自一种名为深度学习的人工智能技术。深度学习可以通过对海量数据的学习生成一种软件，从而解决语言翻译、癌症诊断无人驾驶等各种挑战。人工智能的变化正在以我们行业前所未见的速度加速推进。

作为深度学习领域的开创性研究者，Geoffrey Hinton最近对《纽约客》说：“任何一个需要大量数据才能完成的分类问题，都可以用深度学习来解决。今后会涌现数以千计的深度学习应用。”

不可思议的效果

以谷歌为例。该公司在深度学习领域的开创性应用已经吸引了全世界的关注：Google Now服务拥有令人惊讶的准确度；他们还战胜了全世界最优秀的围棋选手；谷歌翻译甚至可以处理100种不同的语言。

深度学习的效果达到了不可思议的程度。然而，这种方法却要求计算机在摩尔定律逐渐放缓的情况下处理海量数据。深度学习是一种新的计算模型，需要发明新的计算架构。

英伟达尝试改变人工智能计算模型的架构已经有一段时间。2010年，在Juergen Schmidhuber教授的Swiss AI Lab工作的研究员Dan Ciresan发现，英伟达GPU可以用于训练深度神经网络，速度达到CPU的50倍。

一年后，Schmidhuber的实验室使用GPU开发的第一个纯深度神经网络赢得了国际笔迹识别和计算机视觉竞赛。

随后，当时还是多伦多大学研究生的Alex Krizhevsky使用一对GPU赢得了如今著名的ImageNet大规模图像识别竞赛。Schmidhuber还专门记录了GPU深度学习影响现代计算机视觉的历史。

针对深度学习优化

世界各地的人工智能研究人员都发现，英伟达为计算机图形和超级计算应用开创的GPU加速计算模型非常适合深度学习。

就像3D图像、医学成像、分子动力学、量子化学和天气模拟一样，深度学习是一种线性代数算法，需要针对张量或多维向量展开大规模的并行计算。虽然英伟达2009年推出的Kepler GPU让整个世界意识到，可以在深度学习中使用GPU加速计算，但它却并非针对这项任务优化的。

我们开始着手工作，开发一代代的新型GPU架构，先是Maxwell，然后是Pascal，其中包含了很多种专门为深度学习设计的架构进步。在基于Kepler的Tesla K80推出短短4年后，我们就发布了基于Pascal的Tesla P40推断加速器，将深度学习推断性能提升了26倍，远超摩尔定律的预测。

在此期间，谷歌设计了名为TPU的定制加速器芯片，专门用来处理推断，并在2015年部署使用。

该团队上周披露了TPU的优势。他们认为，TPU有很多好处，例如，其推断性能达到K80的13倍。但却并没有将TPU与基于Pascal的P40进行对比。

更新谷歌的对比数据

为了更新谷歌的对比数据，我们制作了如下表格，对K80到P40的性能发展进行了量化，同时对比了TPU与英伟达当前的技术。

P40在计算精度与吞吐量、片载内存和内存带宽之间实现了平衡，在训练和推断方面达到了空前的性能。具体到训练，P40拥有10倍的带宽，32位浮点性能达到12 teraflop。具体到推断，P40拥有高通量8位整数和高存储带宽。

虽然谷歌和英伟达选择了不同的发展路径，但我们的模式还是有一些共同点。具体如下：

人工智能需要加速计算。在摩尔定律放缓的时代背景下，加速器提供了有效的深度学习数据处理需求。
张量处理是实现深度学习训练和推断性能的核心。
张量处理是重要的新工作负荷，创业者必须在开发现代化数据中心时考虑这一问题。
加速张量处理可以大幅削减现代化数据中心的建设成本。

科技行业身处历史转折之中，很多人将此称作人工智能革命。它的影响表现最为突出的领域当属阿里巴巴、亚马逊、百度、Facebook、谷歌、IBM、微软、腾讯等公司的超大规模数据中心。他们需要加快人工智能工作负荷，但却不想投入数十亿美元的建设费，也不想用CPU节点来驱动新的数据中心。没有加速计算，就无法扩大人工智能的应用范围。

网友反应

英伟达前市场营销员工James Wang在Twitter上发布了老黄博文的链接，说黄仁勋回应Google TPU的性能，称P40比TPU快两倍。

在评论中，有网友表示“这怎么可能？”然后各位网友和James Wang把P40从价格到性能吐槽了一遍：

Jedd Haberstro：显然是2倍性能，不止2倍的能耗啊……

James Wang‏：完全是两类不同的产品，P40要卖到1万美元，TPU就几百刀。

Tapabrata Ghosh：P40就不该超过150刀。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-04-11，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度