动态 | 英伟达上演GPU「十六合一」，512GB显存独步天下

AI科技评论

发布于 2018-04-18 17:19:09

1.1K0

发布于 2018-04-18 17:19:09

文章被收录于专栏：AI科技评论

AI 科技评论按：Buy more GPU，save more money！（买越多GPU，就越省钱！）这句话，英伟达 CEO 黄仁勋在整场 GTC 中足足重复了9次（可能还有数漏的）。

作为英伟达每年最重要的大会，一年一度在美国旧金山举办的 GTC 一直都是英伟达技术实力最集中的展示。而且英伟达的新产品也深深牵动着深度学习领域研究人员的心，更快的 GPU 、更大的显存、新的深度计算 API、更强大的计算集群等等都让更大规模、更高表现的模型变得更为平易近人。

看似槽点、其实亮点：

「世界最大的 GPU」、「世界最大的显存」

本次 GTC 之上没有像之前大家预期的那样，发布全新的 GPU 架构，以及传统定义上的「核弹」（单颗GPU、或者单显卡封装的产品）。

但英伟达实际上拿出了一款被黄仁勋自己称为「全球最大的 GPU」的新产品—— DGX-2。

组件强的不像话的DGX-2

去年发布 Volta 架构之时，英伟达实际上已经将 DGX-1 中旧架构、旧工艺的 P100 GPU换成了 V100 GPU。原有的 V100 GPU已经很强大了，那么想要更强大就只剩一种「简单而又粗暴」的方法了：再加几颗 V100 GPU。这样一来，在 DGX-2 服务器加速器中我们将会看到多达 16 颗 V100 GPU。

16 颗 GPU 中任何两颗都能以 300GB/s 带宽进行数据交换

GPU 数量翻倍之后，为了让他们发挥出真正的威力，英伟达还祭出了一项升级版的技术 NVLink Switch（简称NV Switch）。这项技术的目标只有一个：让DGX-2 中的 16 颗 V100 GPU 能够化身为「一颗巨大的 GPU」运作。

根据英伟达副总裁和 DGX 系统产品经理 Jim McHugh 介绍，借助 NVswitch 技术，DGX-2 中的 16颗 GPU 之间都能够直接 1 对 1 连接传输，每颗 GPU 拥有高达 50Gb/s 的带宽，同时最多支持 18 颗 GPU 相互连接，让整个系统的吞吐性能达到惊人的 900Gb/s。

高举着两倍显存的 Quadro GV100加速器的黄仁勋

值得一提的是，DGX-2 中使用的虽然还是 V100 GPU，但它发生了一点小变化 —— 原有的 4 颗 4GB HBM2 显存，升级为 4 颗 8GB HBM2 显存，也让 V100 GPU 的整体显存大小升级为 32GB。（GPU其他参数，包括显存位宽、带宽均没有改变。）并且在 DGX-2中，16 个 V100 GPU 中各自拥有的 32GB 显存都将连接到一起，你甚至可以将它看成一整个 512GB 的显存空间。

那么究竟这对于用户来说有多大的影响呢？英伟达官方的原话是:「显存容量增加，让运行更深、更大的深度学习模型成为可能，同时也会提升深度学习的表现。对于内存大小比较敏感的应用，最多能够提升 50% 的实际表现。」

现场减价「促销」

黄仁勋现场表示展示用的这套实验产品实际上价值 250 万美元，然后先放出了一个 150万美元的售价，接着自己「砍到」了 39.99 万美元，希望用一个「有诚意」的价格打动各方潜在用户。

高速、高效

让自动驾驶路测走向 VR 时代

Drive Constellation的实际系统组成（下图）

在众多的人工智能应用当中，自动驾驶绝对是英伟达最坚定的一个方向。在今年 GTC 大会的演讲上，黄仁勋也为自动驾驶行业带来了一个全新的解决方案 —— Drive Constellation。

Drive Constellation 是一种使用虚拟现实（VR）技术的自动驾驶的模拟器，它让自动驾驶的开发者们在数据中心打造一个虚拟世界，并对自动驾驶车辆的算法进行数十亿英里的测试。英伟达方面希望，通过自身强大的图像渲染和虚拟现实技术，让算法在虚拟环境中的测试无限接近于真实场景。

在 Drive Constellation 中模拟夜间自动驾驶

它的组成结构也非常简单，外观看上去就是两台 DGX-1 服务器。不过两台服务器中的内容不太一样：一台配置了数张英伟达的专业显卡，另外一台则装着和自动驾驶车辆相同的英伟达 DRIVE PX 平台。

整个系统的工作方式也非常简单，配置了专业显卡的服务器结合高清地图、车辆行驶模拟算法、以及天气、光照等一系列条件，经由专业渲染形成虚拟的驾驶环境。然后这些数据以类似于真实传感器的格式被直接发送到装载着 Drive PX 平台的服务器中，Drive PX 平台根据这些数据，执行相应的自动驾驶算法，并且最终将车辆的操纵输出返回到虚拟化的服务器中，形成循环。

根据英伟达官方的说明，两台服务器在 1 秒的时间内可以进行 30 次这样的循环。英伟达还表示，这套系统能够模拟不同的天气，如暴风雨雪天气、一天中不同时刻致盲的炫光、夜晚有限的视野以及不同类型的路况和地形。同时，它也可以模拟危险的路况以测试自动驾驶汽车的反应能力。然后开发者可以对自动驾驶的算法进行改进和完善。

英伟达汽车部门高级主管 Danny Shapiro 对此表示：「这对于行业来说是一个非常有价值的工具，它能够加速自动驾驶的研发进程。」黄仁勋在演讲中也说了一个数字：10000 套 Drive Constellation 系统，一年就能够路测 30 亿英里。

据 AI 科技评论了解，Drive Constellation 将在今年第三季度推向市场，并为英伟达的早期客户提供服务。

在英伟达的生态系统中，目前已经汇集了超过370个不同的公司。大家将合力开发自动驾驶技术。虽然这个数字反映了英伟达阵营的庞大，但这个生态中的 370 个合作伙伴并不都是汽车厂商。具体来说，这些合作伙伴包括乘用车，卡车、物流车和自动驾驶出租车等，一级供应商，自动驾驶初创公司、激光雷达公司、地图公司等等。

通过这套虚拟现实的驾驶模拟器，英伟达完全可以将数量众多的合作伙伴放到一个平台当中，加速自动驾驶技术研发、落地的进程，反过来巩固英伟达自身硬件在自动驾驶领域的不可替代性。

持续渗透的 TensorRT

不断加速的 AI 版图

TensorRT 也是一项英伟达去年发布的新技术，它的目标是将各种人工智能架构的算法，与英伟达各种架构的 GPU 相适配，通过二次优化算法提升整体算法在英伟达 GPU 上面运行的效率。

在本次 GTC 之上，英伟达拿出了最新版本的 TensorRT 4，它最重要的特点就是更高的效率，根据英伟达官方的测试，多种人工智能算法在同一个服务器上运行的时，TensorRT 4 能够减少 70% 的硬件需求，同时还能在延迟方面提升 190倍。

得益于软硬件的共同提升，黄仁勋表示在自家 GPU 上训练 AlexNet 的速度 5 年间提升了 500 倍

相比性能方面的提升，此次 TensorRT 在业界支持方面的新进展其实更加值得关注。因为在去年 TensorRT 某种程度上已经是一个英伟达自己的人工智能架构，而且是凌驾于几乎所有人工智能架构的终极架构。这对于之前希望通过培育人工架构、打造自由人工智能生态的公司来说并不是好事。

令人惊喜的是，英伟达官方表示已经和 Google 达成合作，将在最新的TensorFlow 1.7 版本中直接内嵌 TensorRT ，进而进一步提高模型在英伟达 GPU 上运行时的表现。Goolge 的工程总监 Rajat Monga 还特别表示，Google的 TensorFlow 团队一直和英伟达保持着紧密的合作关系。

其他内容

光线追踪、医疗平台、自家 GPU 云技术、自动驾驶路线图、远程 VR 驾驶

英伟达RTX技术

RTX 技术是目前市面上最强大的光线追踪技术，可以对多种材质进行最接近真实的实时渲染，现场演示中还包括了比较复杂的动态场景。

医疗平台 Clara

由人工智能驱动的医疗平台 Clara 是英伟达的一次全新尝试，现场的展示中，英伟达通过对一个二维的超声波探测实时结果进行处理，直接精准还原患者体内脏器的活动，甚至可以直接算出心脏的容积、以及每次跳动的体积差异。

未来自动驾驶平台路线图

黄仁勋分享了英伟达 DRIVE 系列产品的未来发展路线图，首先发布小尺寸的单芯片平台，然后通过芯片数量和 GPU 的数量增加获得更强的性能，然后利用技术将更强的性能再次压缩为小尺寸的单芯片平台，依次类推。

现场透露下一代单芯片平台代号为 Orin。

基于 Holodeck 的远程虚拟驾驶系统

打算用 VR 来做远程驾驶的初创公司可能很崩溃。

AI 科技评论总结：

GPU 的动力依旧强劲

英伟达不只是一家「性能驱动公司」

在前几年的历程中，英伟达几乎源源不断地拿出更新、更强大的 GPU 芯片。但作为半导体产品，制程的物理限制只能步步逼近而无法直接超越，单颗芯片的提升难度还将不断提升。但因为并行运算的原因，GPU 实际上很容易进行横向的拓展，此次 GTC 上发布的内置全新 16 颗 V100 GPU 的 DGX-2 加速器就是最好的证明。在利用合适的数据传输技术的前提下，GPU 未来的动力增长依旧会「很强劲」。

除了硬件之外，英伟达针对整个生态体系也做了诸多工作，从以深度学习为代表的大规模并行运算支持的持续优化，到完全 VR 化的自动驾驶路测，英伟达实际上在不断为整个生态赋能，扫除一些关键性的障碍。这种能力，放眼人工智能、自动驾驶这样的领域，都是无人能及的。

毫无疑问，在 2018 接下来的日子里，教主和他的英伟达，还将给我们带来更多惊喜。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-28，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

深度学习

api

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

深度学习

api

登录后参与评论

0 条评论

热度