专栏首页AI科技评论动态 | 英伟达上演GPU「十六合一」,512GB显存独步天下

动态 | 英伟达上演GPU「十六合一」,512GB显存独步天下

AI 科技评论按:Buy more GPU,save more money!(买越多GPU,就越省钱!)这句话,英伟达 CEO 黄仁勋在整场 GTC 中足足重复了9次(可能还有数漏的)。

作为英伟达每年最重要的大会,一年一度在美国旧金山举办的 GTC 一直都是英伟达技术实力最集中的展示。而且英伟达的新产品也深深牵动着深度学习领域研究人员的心,更快的 GPU 、更大的显存、新的深度计算 API、更强大的计算集群等等都让更大规模、更高表现的模型变得更为平易近人。

看似槽点、其实亮点:

「世界最大的 GPU」、「世界最大的显存」

本次 GTC 之上没有像之前大家预期的那样,发布全新的 GPU 架构,以及传统定义上的「核弹」(单颗GPU、或者单显卡封装的产品)。

但英伟达实际上拿出了一款被黄仁勋自己称为「全球最大的 GPU」的新产品—— DGX-2。

组件强的不像话的DGX-2

去年发布 Volta 架构之时,英伟达实际上已经将 DGX-1 中旧架构、旧工艺的 P100 GPU换成了 V100 GPU。原有的 V100 GPU已经很强大了,那么想要更强大就只剩一种「简单而又粗暴」的方法了:再加几颗 V100 GPU。这样一来,在 DGX-2 服务器加速器中我们将会看到多达 16 颗 V100 GPU。

16 颗 GPU 中任何两颗都能以 300GB/s 带宽进行数据交换

GPU 数量翻倍之后,为了让他们发挥出真正的威力,英伟达还祭出了一项升级版的技术 NVLink Switch(简称NV Switch)。这项技术的目标只有一个:让DGX-2 中的 16 颗 V100 GPU 能够化身为「一颗巨大的 GPU」运作。

根据英伟达副总裁和 DGX 系统产品经理 Jim McHugh 介绍,借助 NVswitch 技术,DGX-2 中的 16颗 GPU 之间都能够直接 1 对 1 连接传输,每颗 GPU 拥有高达 50Gb/s 的带宽,同时最多支持 18 颗 GPU 相互连接,让整个系统的吞吐性能达到惊人的 900Gb/s。

高举着两倍显存的 Quadro GV100加速器的黄仁勋

值得一提的是,DGX-2 中使用的虽然还是 V100 GPU,但它发生了一点小变化 —— 原有的 4 颗 4GB HBM2 显存,升级为 4 颗 8GB HBM2 显存,也让 V100 GPU 的整体显存大小升级为 32GB。(GPU其他参数,包括显存位宽、带宽均没有改变。)并且在 DGX-2中,16 个 V100 GPU 中各自拥有的 32GB 显存都将连接到一起,你甚至可以将它看成一整个 512GB 的显存空间。

那么究竟这对于用户来说有多大的影响呢?英伟达官方的原话是:「显存容量增加,让运行更深、更大的深度学习模型成为可能,同时也会提升深度学习的表现。对于内存大小比较敏感的应用,最多能够提升 50% 的实际表现。」

现场减价「促销」

黄仁勋现场表示展示用的这套实验产品实际上价值 250 万美元,然后先放出了一个 150万 美元的售价,接着自己「砍到」了 39.99 万美元,希望用一个「有诚意」的价格打动各方潜在用户。

高速、高效

让自动驾驶路测走向 VR 时代

Drive Constellation的实际系统组成(下图)

在众多的人工智能应用当中,自动驾驶绝对是英伟达最坚定的一个方向。在今年 GTC 大会的演讲上,黄仁勋也为自动驾驶行业带来了一个全新的解决方案 —— Drive Constellation。

Drive Constellation 是一种使用虚拟现实(VR)技术的自动驾驶的模拟器,它让自动驾驶的开发者们在数据中心打造一个虚拟世界,并对自动驾驶车辆的算法进行数十亿英里的测试。英伟达方面希望,通过自身强大的图像渲染和虚拟现实技术,让算法在虚拟环境中的测试无限接近于真实场景。

在 Drive Constellation 中模拟夜间自动驾驶

它的组成结构也非常简单,外观看上去就是两台 DGX-1 服务器。不过两台服务器中的内容不太一样:一台配置了数张英伟达的专业显卡,另外一台则装着和自动驾驶车辆相同的英伟达 DRIVE PX 平台。

整个系统的工作方式也非常简单,配置了专业显卡的服务器结合高清地图、车辆行驶模拟算法、以及天气、光照等一系列条件,经由专业渲染形成虚拟的驾驶环境。然后这些数据以类似于真实传感器的格式被直接发送到装载着 Drive PX 平台的服务器中,Drive PX 平台根据这些数据,执行相应的自动驾驶算法,并且最终将车辆的操纵输出返回到虚拟化的服务器中,形成循环。

根据英伟达官方的说明,两台服务器在 1 秒的时间内可以进行 30 次这样的循环。英伟达还表示,这套系统能够模拟不同的天气,如暴风雨雪天气、一天中不同时刻致盲的炫光、夜晚有限的视野以及不同类型的路况和地形。同时,它也可以模拟危险的路况以测试自动驾驶汽车的反应能力。然后开发者可以对自动驾驶的算法进行改进和完善。

英伟达汽车部门高级主管 Danny Shapiro 对此表示:「这对于行业来说是一个非常有价值的工具,它能够加速自动驾驶的研发进程。」黄仁勋在演讲中也说了一个数字:10000 套 Drive Constellation 系统,一年就能够路测 30 亿英里。

据 AI 科技评论了解,Drive Constellation 将在今年第三季度推向市场,并为英伟达的早期客户提供服务。

在英伟达的生态系统中,目前已经汇集了超过370个不同的公司。大家将合力开发自动驾驶技术。虽然这个数字反映了英伟达阵营的庞大,但这个生态中的 370 个合作伙伴并不都是汽车厂商。具体来说,这些合作伙伴包括乘用车,卡车、物流车和自动驾驶出租车等,一级供应商,自动驾驶初创公司、激光雷达公司、地图公司等等。

通过这套虚拟现实的驾驶模拟器,英伟达完全可以将数量众多的合作伙伴放到一个平台当中,加速自动驾驶技术研发、落地的进程,反过来巩固英伟达自身硬件在自动驾驶领域的不可替代性。

持续渗透的 TensorRT

不断加速的 AI 版图

TensorRT 也是一项英伟达去年发布的新技术,它的目标是将各种人工智能架构的算法,与英伟达各种架构的 GPU 相适配,通过二次优化算法提升整体算法在英伟达 GPU 上面运行的效率。

在本次 GTC 之上,英伟达拿出了最新版本的 TensorRT 4,它最重要的特点就是更高的效率,根据英伟达官方的测试,多种人工智能算法在同一个服务器上运行的时,TensorRT 4 能够减少 70% 的硬件需求,同时还能在延迟方面提升 190倍。

得益于软硬件的共同提升,黄仁勋表示在自家 GPU 上训练 AlexNet 的速度 5 年间提升了 500 倍

相比性能方面的提升,此次 TensorRT 在业界支持方面的新进展其实更加值得关注。因为在去年 TensorRT 某种程度上已经是一个英伟达自己的人工智能架构,而且是凌驾于几乎所有人工智能架构的终极架构。这对于之前希望通过培育人工架构、打造自由人工智能生态的公司来说并不是好事。

令人惊喜的是,英伟达官方表示已经和 Google 达成合作,将在最新的TensorFlow 1.7 版本中直接内嵌 TensorRT ,进而进一步提高模型在英伟达 GPU 上运行时的表现。Goolge 的工程总监 Rajat Monga 还特别表示,Google的 TensorFlow 团队一直和英伟达保持着紧密的合作关系。

其他内容

光线追踪、医疗平台、自家 GPU 云技术、自动驾驶路线图、远程 VR 驾驶

英伟达RTX技术

RTX 技术是目前市面上最强大的光线追踪技术,可以对多种材质进行最接近真实的实时渲染,现场演示中还包括了比较复杂的动态场景。

医疗平台 Clara

由人工智能驱动的医疗平台 Clara 是英伟达的一次全新尝试,现场的展示中,英伟达通过对一个二维的超声波探测实时结果进行处理,直接精准还原患者体内脏器的活动,甚至可以直接算出心脏的容积、以及每次跳动的体积差异。

未来自动驾驶平台路线图

黄仁勋分享了英伟达 DRIVE 系列产品的未来发展路线图,首先发布小尺寸的单芯片平台,然后通过芯片数量和 GPU 的数量增加获得更强的性能,然后利用技术将更强的性能再次压缩为小尺寸的单芯片平台,依次类推。

现场透露下一代单芯片平台代号为 Orin。

基于 Holodeck 的远程虚拟驾驶系统

打算用 VR 来做远程驾驶的初创公司可能很崩溃。

AI 科技评论总结:

GPU 的动力依旧强劲

英伟达不只是一家「性能驱动公司」

在前几年的历程中,英伟达几乎源源不断地拿出更新、更强大的 GPU 芯片。但作为半导体产品,制程的物理限制只能步步逼近而无法直接超越,单颗芯片的提升难度还将不断提升。但因为并行运算的原因,GPU 实际上很容易进行横向的拓展,此次 GTC 上发布的内置全新 16 颗 V100 GPU 的 DGX-2 加速器就是最好的证明。在利用合适的数据传输技术的前提下,GPU 未来的动力增长依旧会「很强劲」。

除了硬件之外,英伟达针对整个生态体系也做了诸多工作,从以深度学习为代表的大规模并行运算支持的持续优化,到完全 VR 化的自动驾驶路测,英伟达实际上在不断为整个生态赋能,扫除一些关键性的障碍。这种能力,放眼人工智能、自动驾驶这样的领域,都是无人能及的。

毫无疑问,在 2018 接下来的日子里,教主和他的英伟达,还将给我们带来更多惊喜。

本文分享自微信公众号 - AI科技评论(aitechtalk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 对机器人来说,简单的动作比复杂的推理更难以实现?

    GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

    AI科技评论
  • 动态 | IROS 2018 移动操作机器人竞赛冠军揭晓,华人带领的国际团队再创佳绩

    AI 科技评论消息,IROS 2018 于当地时间 10 月 1-5 日在西班牙马德里召开,会上,来自新加坡松下研究院申省梅团队、新加坡南洋理工大学陈义明教授团...

    AI科技评论
  • 黄仁勋在GTC上带来什么惊喜?除了TensorRT 3,还有英伟达在自动驾驶的最新动向

    AI科技评论按:今年是英伟达 GTC(GPU 技术大会)在中国举办的第二年。在 AI 革命势头正劲之际,英伟达创始人兼 CEO 黄仁勋亮相北京。据了解,为期三天...

    AI科技评论
  • 机器人利用机器学习烫衣服

    烫衣服这档子事不像刷厕所那么惹人厌,也不像清猫砂那么臭,不过烫衣服一直都是大家最不爱的家事之一。 你还是得自己动手清洁那个陶瓷制作的王座或是跟在猫咪的屁股后面清...

    GPUS Lady
  • 使用作者代码重复结果

    第三单元第十二+十三讲:使用作者代码重复结果 课程链接在:http://jm.grazy.cn/index/mulitcourse/detail.html?ci...

    生信技能树jimmy
  • 英特尔开发大型3D物体数据集PartNet,使机器人更准确的识别和操纵对象

    训练计算机和机器人不仅要理解和识别物体,而且要让它们能够处理人类每天做的相对简单的任务,这一点非常关键。

    AiTechYun
  • 你猜ta 在说什么?

    如果可以在家里拥有一个机器人,你会希望它做什么工作呢?比起那些会爬杆、会弹跳、会游泳的机器人来说,会叠衣服的家伙似乎更有用。今天(12月3日),新浪微博号@英国...

    机器人网
  • webpack项目初始化和基于模块的脚手架搭建

    http://localhost:8088/dist/view/index.html

    晓歌
  • python pyqt5 点击按钮打开窗体

    from PyQt5 import QtCore, QtGui, QtWidgets from PyQt5.QtWidgets import QApplica...

    用户5760343
  • 爬虫篇(1)——从爬取练习题开始1 1.对python练习100例内容的爬取

    前言: 介绍小例子,加深对爬虫的理解,主要用bs4完成 1 1.对python练习100例内容的爬取 页面分析 主页面: ? image.png ...

    DC童生

扫码关注云+社区

领取腾讯云代金券