专栏首页量子位英伟达CEO手撕谷歌TPU:P80性能比它强2倍!

英伟达CEO手撕谷歌TPU:P80性能比它强2倍!

李杉 李林 编译整理 量子位 出品 | 公众号 QbitAI

上周,Google发表论文,详解了神经网络推断专用芯片TPU的架构,还展示了一些性能数据,比如说:在推断任务中,TPU平均比英伟达的Tesla K80 GPU或英特尔至强E5-2699 v3 CPU速度快15至30倍左右。

英伟达CEO黄仁勋坐不住了:为什么跟K80比?不知道我们后来出了P40吗?

Google在论文中提到的Tesla K80和老黄要拿出来比的Tesla P40,都是英伟达推出的适用于服务器的GPU加速器。

K80发布于2012年(老黄说的),使用了Kepler(上上代)架构,英伟达对它的定位是“超级计算领域的性价比之选”;P40则是去年发布的,使用了Pascal架构,“专为加快超大规模的混合工作负载和具备强扩展能力的 HPC 数据中心的运行速度而设计”。

这两款处理器之间,隔了三年,隔了一代Maxwell架构的产品。在深度学习推断性能上,P40比K80高了26倍。

老黄看了Google的论文,表示不服。于是,老黄在公司官方博客上发了题为《人工智能推动数据中心加速计算技术崛起(AI Drives the Rise of Accelerated Computing in Data Centers)》的文章,高度赞扬了Google的人工智能技术。

然后用P40跟Google的TPU做了个对比,帮Google更新了一下数据:英伟达Tesla P40在GoogleNet推断任务中的性能比Google TPU高2倍。

不过,老黄更新的数据遭到了Twitter网友的无情吐槽,因为无论是能耗还是价格,P40都比TPU高出了不止2倍。

以下是老黄的手撕全文

谷歌最近发表的TPU论文得出了一个明确结论——如果没有加速计算,就无法扩大人工智能的应用范围。

如今的经济很大程度上依赖于世界各地的数据中心,而数据中心都在发生快速变化。但不久之前还不是这样,彼时的数据中心主要为网页、广告和视频内容服务。可如今,它们还要负责识别声音,探测视频流里的图像,并在我们有需求时提供有用的信息。

这些能力都源自一种名为深度学习的人工智能技术。深度学习可以通过对海量数据的学习生成一种软件,从而解决语言翻译、癌症诊断无人驾驶等各种挑战。人工智能的变化正在以我们行业前所未见的速度加速推进。

作为深度学习领域的开创性研究者,Geoffrey Hinton最近对《纽约客》说:“任何一个需要大量数据才能完成的分类问题,都可以用深度学习来解决。今后会涌现数以千计的深度学习应用。”

不可思议的效果

以谷歌为例。该公司在深度学习领域的开创性应用已经吸引了全世界的关注:Google Now服务拥有令人惊讶的准确度;他们还战胜了全世界最优秀的围棋选手;谷歌翻译甚至可以处理100种不同的语言。

深度学习的效果达到了不可思议的程度。然而,这种方法却要求计算机在摩尔定律逐渐放缓的情况下处理海量数据。深度学习是一种新的计算模型,需要发明新的计算架构。

英伟达尝试改变人工智能计算模型的架构已经有一段时间。2010年,在Juergen Schmidhuber教授的Swiss AI Lab工作的研究员Dan Ciresan发现,英伟达GPU可以用于训练深度神经网络,速度达到CPU的50倍。

一年后,Schmidhuber的实验室使用GPU开发的第一个纯深度神经网络赢得了国际笔迹识别和计算机视觉竞赛。

随后,当时还是多伦多大学研究生的Alex Krizhevsky使用一对GPU赢得了如今著名的ImageNet大规模图像识别竞赛。Schmidhuber还专门记录了GPU深度学习影响现代计算机视觉的历史。

针对深度学习优化

世界各地的人工智能研究人员都发现,英伟达为计算机图形和超级计算应用开创的GPU加速计算模型非常适合深度学习。

就像3D图像、医学成像、分子动力学、量子化学和天气模拟一样,深度学习是一种线性代数算法,需要针对张量或多维向量展开大规模的并行计算。虽然英伟达2009年推出的Kepler GPU让整个世界意识到,可以在深度学习中使用GPU加速计算,但它却并非针对这项任务优化的。

我们开始着手工作,开发一代代的新型GPU架构,先是Maxwell,然后是Pascal,其中包含了很多种专门为深度学习设计的架构进步。在基于Kepler的Tesla K80推出短短4年后,我们就发布了基于Pascal的Tesla P40推断加速器,将深度学习推断性能提升了26倍,远超摩尔定律的预测。

在此期间,谷歌设计了名为TPU的定制加速器芯片,专门用来处理推断,并在2015年部署使用。

该团队上周披露了TPU的优势。他们认为,TPU有很多好处,例如,其推断性能达到K80的13倍。但却并没有将TPU与基于Pascal的P40进行对比。

更新谷歌的对比数据

为了更新谷歌的对比数据,我们制作了如下表格,对K80到P40的性能发展进行了量化,同时对比了TPU与英伟达当前的技术。

P40在计算精度与吞吐量、片载内存和内存带宽之间实现了平衡,在训练和推断方面达到了空前的性能。具体到训练,P40拥有10倍的带宽,32位浮点性能达到12 teraflop。具体到推断,P40拥有高通量8位整数和高存储带宽。

虽然谷歌和英伟达选择了不同的发展路径,但我们的模式还是有一些共同点。具体如下:

  • 人工智能需要加速计算。在摩尔定律放缓的时代背景下,加速器提供了有效的深度学习数据处理需求。
  • 张量处理是实现深度学习训练和推断性能的核心。
  • 张量处理是重要的新工作负荷,创业者必须在开发现代化数据中心时考虑这一问题。
  • 加速张量处理可以大幅削减现代化数据中心的建设成本。

科技行业身处历史转折之中,很多人将此称作人工智能革命。它的影响表现最为突出的领域当属阿里巴巴、亚马逊、百度、Facebook、谷歌、IBM、微软、腾讯等公司的超大规模数据中心。他们需要加快人工智能工作负荷,但却不想投入数十亿美元的建设费,也不想用CPU节点来驱动新的数据中心。没有加速计算,就无法扩大人工智能的应用范围。

网友反应

英伟达前市场营销员工James Wang在Twitter上发布了老黄博文的链接,说黄仁勋回应Google TPU的性能,称P40比TPU快两倍。

在评论中,有网友表示“这怎么可能?”然后各位网友和James Wang把P40从价格到性能吐槽了一遍:

Jedd Haberstro:显然是2倍性能,不止2倍的能耗啊……

James Wang‏:完全是两类不同的产品,P40要卖到1万美元,TPU就几百刀。

Tapabrata Ghosh:P40就不该超过150刀。

本文分享自微信公众号 - 量子位(QbitAI),作者:唯恐天下不乱

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌TPU2代有望取代英伟达GPU?测评结果显示…

    去年5月,谷歌推出了第二代TPU芯片,这是一个自定义开发的深度学习加速芯片,不少人认为有望成为英伟达GPU的替代品。

    量子位
  • 谷歌发论文披露TPU详细信息,比GPU、CPU快15-30倍

    △ TPU的印刷电路板 李杉 编译整理 量子位 报道 | 公众号 QbitAI 自从Google去年透露自己开发了一款名为TPU的专用芯片,用于提高人工智能计算...

    量子位
  • Facebook也在搞智能音箱,以及一个美国版小鱼在家

    李林 编译整理 量子位 出品 | 公众号 QbitAI ? 这年头,不搞智能音箱还真不好意思说自己是巨头。 于是Facebook也来了。来自彭博的报道显示,Fa...

    量子位
  • Kafka技术知识总结之二——Kafka事务

    Kafka 事务与数据库的事务定义基本类似,主要是一个原子性:多个操作要么全部成功,要么全部失败。Kafka 中的事务可以使应用程序将消费消息、生产消息、提交消...

    剑影啸清寒
  • Kafka设计-恰好一次和事务消息

    为了解决重试导致的消息重复、乱序问题,kafka引入了幂等消息。幂等消息保证producer在一次会话内写入一个partition内的消息具有幂等性,可以通过重...

    王知无
  • 爬虫基础篇[Web 漏洞扫描器]

    Web 漏扫的爬虫和其他的网络爬虫的技术挑战不太一样,漏扫的爬虫不仅仅需要爬取网页内容、分析链接信息, 还需要尽可能多的触发网页上的各种事件,以便获取更多的有效...

    信安之路
  • mysql视图的简单实用

    视图是从一个或者多个表导出的出局,与表非常相似但是视图没有物理记录,不占用物理空间,只是逻辑上存在,保障数据表的安全。

    93年的老男孩
  • maven配置(详解)

    作为一个编程人员,maven基本是每个人都会用到的小工具,今天就给大家写一下maven的基本配置。

    何处锦绣不灰堆
  • [Linux]ankisyncd同步服务器重启脚本(Anki软件使用)

    相对于针对Anki2.0的同步服务器程序AnkiServer,个人亲测觉得ankisyncd这个程序既不稳定,也不方便,用过一两天就崩溃了,而且独占终端,没有关...

    祥知道
  • jquery自定义插件实现分页效果

    下面说说实现思路。实现分页效果,数据的加载可以分为两种情况:一次性获取数据和动态获取数据。一次性获取数据就是将所要查询的数据一次性查询出来,在前台去做分页...

    lzugis

扫码关注云+社区

领取腾讯云代金券