前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >动态 | 英伟达上演GPU「十六合一」,512GB显存独步天下

动态 | 英伟达上演GPU「十六合一」,512GB显存独步天下

作者头像
AI科技评论
发布2018-04-18 17:19:09
1.1K0
发布2018-04-18 17:19:09
举报
文章被收录于专栏:AI科技评论AI科技评论

AI 科技评论按:Buy more GPU,save more money!(买越多GPU,就越省钱!)这句话,英伟达 CEO 黄仁勋在整场 GTC 中足足重复了9次(可能还有数漏的)。

作为英伟达每年最重要的大会,一年一度在美国旧金山举办的 GTC 一直都是英伟达技术实力最集中的展示。而且英伟达的新产品也深深牵动着深度学习领域研究人员的心,更快的 GPU 、更大的显存、新的深度计算 API、更强大的计算集群等等都让更大规模、更高表现的模型变得更为平易近人。

看似槽点、其实亮点:

「世界最大的 GPU」、「世界最大的显存」

本次 GTC 之上没有像之前大家预期的那样,发布全新的 GPU 架构,以及传统定义上的「核弹」(单颗GPU、或者单显卡封装的产品)。

但英伟达实际上拿出了一款被黄仁勋自己称为「全球最大的 GPU」的新产品—— DGX-2。

组件强的不像话的DGX-2

去年发布 Volta 架构之时,英伟达实际上已经将 DGX-1 中旧架构、旧工艺的 P100 GPU换成了 V100 GPU。原有的 V100 GPU已经很强大了,那么想要更强大就只剩一种「简单而又粗暴」的方法了:再加几颗 V100 GPU。这样一来,在 DGX-2 服务器加速器中我们将会看到多达 16 颗 V100 GPU。

16 颗 GPU 中任何两颗都能以 300GB/s 带宽进行数据交换

GPU 数量翻倍之后,为了让他们发挥出真正的威力,英伟达还祭出了一项升级版的技术 NVLink Switch(简称NV Switch)。这项技术的目标只有一个:让DGX-2 中的 16 颗 V100 GPU 能够化身为「一颗巨大的 GPU」运作。

根据英伟达副总裁和 DGX 系统产品经理 Jim McHugh 介绍,借助 NVswitch 技术,DGX-2 中的 16颗 GPU 之间都能够直接 1 对 1 连接传输,每颗 GPU 拥有高达 50Gb/s 的带宽,同时最多支持 18 颗 GPU 相互连接,让整个系统的吞吐性能达到惊人的 900Gb/s。

高举着两倍显存的 Quadro GV100加速器的黄仁勋

值得一提的是,DGX-2 中使用的虽然还是 V100 GPU,但它发生了一点小变化 —— 原有的 4 颗 4GB HBM2 显存,升级为 4 颗 8GB HBM2 显存,也让 V100 GPU 的整体显存大小升级为 32GB。(GPU其他参数,包括显存位宽、带宽均没有改变。)并且在 DGX-2中,16 个 V100 GPU 中各自拥有的 32GB 显存都将连接到一起,你甚至可以将它看成一整个 512GB 的显存空间。

那么究竟这对于用户来说有多大的影响呢?英伟达官方的原话是:「显存容量增加,让运行更深、更大的深度学习模型成为可能,同时也会提升深度学习的表现。对于内存大小比较敏感的应用,最多能够提升 50% 的实际表现。」

现场减价「促销」

黄仁勋现场表示展示用的这套实验产品实际上价值 250 万美元,然后先放出了一个 150万 美元的售价,接着自己「砍到」了 39.99 万美元,希望用一个「有诚意」的价格打动各方潜在用户。

高速、高效

让自动驾驶路测走向 VR 时代

Drive Constellation的实际系统组成(下图)

在众多的人工智能应用当中,自动驾驶绝对是英伟达最坚定的一个方向。在今年 GTC 大会的演讲上,黄仁勋也为自动驾驶行业带来了一个全新的解决方案 —— Drive Constellation。

Drive Constellation 是一种使用虚拟现实(VR)技术的自动驾驶的模拟器,它让自动驾驶的开发者们在数据中心打造一个虚拟世界,并对自动驾驶车辆的算法进行数十亿英里的测试。英伟达方面希望,通过自身强大的图像渲染和虚拟现实技术,让算法在虚拟环境中的测试无限接近于真实场景。

在 Drive Constellation 中模拟夜间自动驾驶

它的组成结构也非常简单,外观看上去就是两台 DGX-1 服务器。不过两台服务器中的内容不太一样:一台配置了数张英伟达的专业显卡,另外一台则装着和自动驾驶车辆相同的英伟达 DRIVE PX 平台。

整个系统的工作方式也非常简单,配置了专业显卡的服务器结合高清地图、车辆行驶模拟算法、以及天气、光照等一系列条件,经由专业渲染形成虚拟的驾驶环境。然后这些数据以类似于真实传感器的格式被直接发送到装载着 Drive PX 平台的服务器中,Drive PX 平台根据这些数据,执行相应的自动驾驶算法,并且最终将车辆的操纵输出返回到虚拟化的服务器中,形成循环。

根据英伟达官方的说明,两台服务器在 1 秒的时间内可以进行 30 次这样的循环。英伟达还表示,这套系统能够模拟不同的天气,如暴风雨雪天气、一天中不同时刻致盲的炫光、夜晚有限的视野以及不同类型的路况和地形。同时,它也可以模拟危险的路况以测试自动驾驶汽车的反应能力。然后开发者可以对自动驾驶的算法进行改进和完善。

英伟达汽车部门高级主管 Danny Shapiro 对此表示:「这对于行业来说是一个非常有价值的工具,它能够加速自动驾驶的研发进程。」黄仁勋在演讲中也说了一个数字:10000 套 Drive Constellation 系统,一年就能够路测 30 亿英里。

据 AI 科技评论了解,Drive Constellation 将在今年第三季度推向市场,并为英伟达的早期客户提供服务。

在英伟达的生态系统中,目前已经汇集了超过370个不同的公司。大家将合力开发自动驾驶技术。虽然这个数字反映了英伟达阵营的庞大,但这个生态中的 370 个合作伙伴并不都是汽车厂商。具体来说,这些合作伙伴包括乘用车,卡车、物流车和自动驾驶出租车等,一级供应商,自动驾驶初创公司、激光雷达公司、地图公司等等。

通过这套虚拟现实的驾驶模拟器,英伟达完全可以将数量众多的合作伙伴放到一个平台当中,加速自动驾驶技术研发、落地的进程,反过来巩固英伟达自身硬件在自动驾驶领域的不可替代性。

持续渗透的 TensorRT

不断加速的 AI 版图

TensorRT 也是一项英伟达去年发布的新技术,它的目标是将各种人工智能架构的算法,与英伟达各种架构的 GPU 相适配,通过二次优化算法提升整体算法在英伟达 GPU 上面运行的效率。

在本次 GTC 之上,英伟达拿出了最新版本的 TensorRT 4,它最重要的特点就是更高的效率,根据英伟达官方的测试,多种人工智能算法在同一个服务器上运行的时,TensorRT 4 能够减少 70% 的硬件需求,同时还能在延迟方面提升 190倍。

得益于软硬件的共同提升,黄仁勋表示在自家 GPU 上训练 AlexNet 的速度 5 年间提升了 500 倍

相比性能方面的提升,此次 TensorRT 在业界支持方面的新进展其实更加值得关注。因为在去年 TensorRT 某种程度上已经是一个英伟达自己的人工智能架构,而且是凌驾于几乎所有人工智能架构的终极架构。这对于之前希望通过培育人工架构、打造自由人工智能生态的公司来说并不是好事。

令人惊喜的是,英伟达官方表示已经和 Google 达成合作,将在最新的TensorFlow 1.7 版本中直接内嵌 TensorRT ,进而进一步提高模型在英伟达 GPU 上运行时的表现。Goolge 的工程总监 Rajat Monga 还特别表示,Google的 TensorFlow 团队一直和英伟达保持着紧密的合作关系。

其他内容

光线追踪、医疗平台、自家 GPU 云技术、自动驾驶路线图、远程 VR 驾驶

英伟达RTX技术

RTX 技术是目前市面上最强大的光线追踪技术,可以对多种材质进行最接近真实的实时渲染,现场演示中还包括了比较复杂的动态场景。

医疗平台 Clara

由人工智能驱动的医疗平台 Clara 是英伟达的一次全新尝试,现场的展示中,英伟达通过对一个二维的超声波探测实时结果进行处理,直接精准还原患者体内脏器的活动,甚至可以直接算出心脏的容积、以及每次跳动的体积差异。

未来自动驾驶平台路线图

黄仁勋分享了英伟达 DRIVE 系列产品的未来发展路线图,首先发布小尺寸的单芯片平台,然后通过芯片数量和 GPU 的数量增加获得更强的性能,然后利用技术将更强的性能再次压缩为小尺寸的单芯片平台,依次类推。

现场透露下一代单芯片平台代号为 Orin。

基于 Holodeck 的远程虚拟驾驶系统

打算用 VR 来做远程驾驶的初创公司可能很崩溃。

AI 科技评论总结:

GPU 的动力依旧强劲

英伟达不只是一家「性能驱动公司」

在前几年的历程中,英伟达几乎源源不断地拿出更新、更强大的 GPU 芯片。但作为半导体产品,制程的物理限制只能步步逼近而无法直接超越,单颗芯片的提升难度还将不断提升。但因为并行运算的原因,GPU 实际上很容易进行横向的拓展,此次 GTC 上发布的内置全新 16 颗 V100 GPU 的 DGX-2 加速器就是最好的证明。在利用合适的数据传输技术的前提下,GPU 未来的动力增长依旧会「很强劲」。

除了硬件之外,英伟达针对整个生态体系也做了诸多工作,从以深度学习为代表的大规模并行运算支持的持续优化,到完全 VR 化的自动驾驶路测,英伟达实际上在不断为整个生态赋能,扫除一些关键性的障碍。这种能力,放眼人工智能、自动驾驶这样的领域,都是无人能及的。

毫无疑问,在 2018 接下来的日子里,教主和他的英伟达,还将给我们带来更多惊喜。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 看似槽点、其实亮点:
  • 「世界最大的 GPU」、「世界最大的显存」
  • 高速、高效
  • 让自动驾驶路测走向 VR 时代
  • 持续渗透的 TensorRT
  • 不断加速的 AI 版图
  • 其他内容
  • 光线追踪、医疗平台、自家 GPU 云技术、自动驾驶路线图、远程 VR 驾驶
    • 英伟达RTX技术
      • 医疗平台 Clara
        • 未来自动驾驶平台路线图
          • 基于 Holodeck 的远程虚拟驾驶系统
          • AI 科技评论总结:
          • GPU 的动力依旧强劲
          • 英伟达不只是一家「性能驱动公司」
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档