业界 | 英伟达的新GPU来了,FPGA和ASIC要扔掉吗?

AI科技评论消息,美国时间5月10日,NVIDIA CEO黄仁勋在开发者大会GTC2017上发布新一代GPU架构Volta,首款核心为GV100,采用台积电12nm制程,最大亮点是成倍提升了推理性能,意欲在目前称霸机器学习训练场景的基础上,在推理场景也成为最佳商用选择。

GV100 GPU

据AI科技评论了解,Volta架构GV100 GPU采用台积电(TSMC)12nm FFN制程,具有5120个CUDA核心。相比上一代16nm制程的Pascal架构GPU GP100,晶体管数目增加了38%,达到了惊人的211亿个;核心面积也继续增加33%,达到令人生畏的815mm2,约等于一块Apple Watch的面积,据黄仁勋称这样的面积已经达到了制造工艺极限。随着核心的增大,GV100的单、双精度浮点性能也大幅提升了41%。然而这还不是重点,为了满足GPU在机器学习中的性能需求,Volta架构中引入了新的张量运算指令Tensor Core,让机器学习中训练速度提升约3倍、推理性能提升约10倍(相比上一代自家GPU GP100)

GV100搭载在TESLA V100开发板上亮相,配合来自三星的16GB HBM2显存,显存带宽也达到了900GB/s之高。

根据现场演讲PPT,推理场景下,V100比上一代搭载GP100 CPU的P100板卡,图像处理能力提升了约10倍,延迟也下降了约30%。在这样的性能提升之下,GPU已经可以让FPGA和ASIC几乎没有用武之地,在商用场景中几乎满足全部计算需求。(详细分析见文末)

DGX-1V、DGX Station

随着GV100 GPU发布,NVIDIA的深度学习超级计算机也进行了升级。老款DGX-1把原有Pascal GPU升级为Volta GPU,名字也更新为DGX-1V。它内置八块 Tesla V100开发板,合计显存128G、运算能力为 960 Tensor TFLOPS,即将迈入下一个时代。黄仁勋表示,过去 Titan X 需花费八天训练的神经网络,用 DGX-1V 只需八个小时。它相当于是“把 400 个服务器装进一个盒子里”。

DGX Station 则是缩小版的 DGX-1V,黄仁勋称其为“Personal DGX”,堪称是终极个人深度学习电脑,各方面指标均为DGX-1V的一半,但仍然已经非常强大。英伟达内部使用DGX Station已经很久,每个工程师要么有 DGX-1V,要么有 DGX Station,再要么两个都有。既然它确实能够满足工程师的需求,英伟达决定把这款产品推广给公众市场。

NVIDIA意图通过GV100完全称霸机器学习硬件市场

据AI科技评论了解,机器学习中需要用到高计算性能的场景有两种,一种是训练,通过反复计算来调整神经网络架构内的参数;另一种是推理,用已经确定的参数批量化解决预定任务。而在这两种场景中,共有三种硬件在进行竞争,GPU、FPGA和ASIC。

GPU(以前是Graphics Processing Unit图形计算单元,如今已经是General Processing Unit通用计算单元)具有高的计算能力、高级开发环境、不影响机器学习算法切换的优点,虽然同等计算能力下能耗最高,但仍然在算法开发和机器学习训练场景中占据绝对的市场地位。

FPGA(Field-Programmable Gate Array,现场可编程矩阵门)是一种半成型的硬件,需要通过编程定义其中的单元配置和链接架构才能进行计算,相当于也具有很高的通用性,功耗也较低,但开发成本很高、不便于随时修改,训练场景下的性能不如GPU。

ASIC(Application Specific Integrated Circuits,专用集成电路)是根据确定的算法设计制造的专用电路,看起来就是一块普通的芯片。由于是专用电路,可以高效低能耗地完成设计任务,但是由于是专用设计的,所以只能执行本来设计的任务,在做出来以后想要改变算法是不可能的。谷歌的TPU(Tensor Processing Unit张量处理单元)就是一种介于ASIC和FPGA之间的芯片,只有部分的可定制性,目的是对确定算法的高效执行。

所以目前的状况是,虽然GPU在算法开发和机器学习训练场景中占有绝对地位;但是由于FPGA和ASIC在任务和算法确定的情况下,在长期稳定大规模执行(推理)方面有很大优势,所以GPU跟FPGA和ASIC之间还算互有进退,尤其GPU相同性能下功耗很高,对大规模计算中心来说电费都是很高的负担。但随着GV100对推理计算能力的约10倍提升,商用场景下已经没有必要为了推理场景更换硬件了,同一套GPU可以在训练场景的计算能力和推理场景的计算能力同时达到同功耗下最佳,还具有最好的拓展和修改能力,简直别无所求。

面对提升如此明显的GPU,一众投身机器学习硬件的FGPA和ASIC厂商前景令人担忧。也许现在唯一能让他们松口气的就是GV100 GPU的量产出货时间要到2017年三四季度。等2018年,希望大规模部署后的GV100能用成倍提升后的性能给我们带来新的惊喜。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程坑太多

程序出现bug是必然出现的情况还是程序猿水平有限导致的?

PS:最最大的bug是,明明程序运行的好好的,但项目失败了。你叫程序员怎么查?我只是个搬砖的,大厦为什么会倒,我哪知道啊~

50
来自专栏机器人网

服务机器人常用的定位导航技术及优缺点分析

自主定位导航是机器人实现智能化的前提之一,是赋予机器人感知和行动能力的关键因素。如果说机器人不会自主定位导航,不能对周围环境进行分析、判断和选择,规划路径,那么...

3304
来自专栏程序人生

面对压力:凡杀不死我的都使我强大

昨天的文章随手一写,收效很大。有两三个读者都回复说(大意):『你写技术的,我不爱看。这篇好看多了』。程序君顿时泪奔。 『为什么我比你有时间』的打开率(超过50%...

34210
来自专栏量子位

奥巴马吐槽川普“笨蛋”的视频火了,这又得“归功”于AI

也就半天的工夫,这段视频在Twitter上有200多万次播放,1300多条评论,被转发了2万6000多次,还收获了5万多个赞。

692
来自专栏程序人生

程序员字典:「牛逼」

昨天发了中国团队的招聘贴 新的冒险,基本要求这一页我是这么写的: ? 作为一个已经命中注定和代码打大半辈子交道的程序员,我们职业生涯的「小」目标大多是 成为一个...

39515
来自专栏腾讯大讲堂的专栏

产品经理十类常用工具

LOL中很经典的一句话“虽然是辅助,但我也有一颗ADC的心!”,同样,虽然一直在做运营的工作,但同样也有一颗产品经理的心,站长试水做了一个《产品经理十类常用工...

2006
来自专栏媒矿工厂

关于评价与改善沉浸式媒体体验质量的研究现状

沉浸式媒体应用与设备近年来的兴起,在一定程度上导致了MPEG、3GPP、WebVR以及其他相关领域标准化的推进。就目前的沉浸式媒体应用与设备而言,如何评价其体验...

3564
来自专栏编程坑太多

嫁给程序员好吗?

PS:现实中的大多数程序员呢?技术一般、勉强混口饭吃;天天加班、不健身;不懂音乐、更不懂妹子,说话木讷;从出生到现在都是那一个发型、稀疏且油腻,穿衣一律深色上衣...

633
来自专栏程序人生

当我参加培训的时候,我在学什么?

在旧金山举行的 erlang/elixir 2017 大会上周结束。这次,我并未参加 —— 权衡再三,我选择了这周的 complete OTP 培训,毕竟大会的...

2815
来自专栏企鹅号快讯

计算机科学的前世与今生

你不懂的计算机 那么关于计算机的前世今生我们要从一只碗开始说起 ? 这个碗是计算机历史上最伟大的奖项图灵奖(ACM)它给予在计算机历史上做出过杰出贡献的人,那么...

24010

扫描关注云+社区