前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >英伟达黄仁勋发布全球最大GPU,超300斤,汽车后备箱大小 | GTC2018

英伟达黄仁勋发布全球最大GPU,超300斤,汽车后备箱大小 | GTC2018

作者头像
大数据文摘
发布2018-05-23 15:55:22
8120
发布2018-05-23 15:55:22
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘作品

作者:魏子敏、云舟、龙牧雪

这一次的GTC大会可能让不少矿工略微失望,英伟达并没有如传言所说发布一款“挖矿”专用芯片,但这并不影响这场持续三小时的英伟达2018GTC大会的精彩。

当地时间3月28日上午9点,英伟达创始人兼首席执行官黄仁勋在San Jose McEnery 会议中心,开启了第九届年度 GPU 技术大会 (GTC)。

按照惯例,黄教主依然一身皮衣登场,激情满满完成了本次大会的keynote演讲,并发布了一系列英伟达的新产品。

先来一睹为快本次发布会的精华内容:

  • 发布全球首个基于Volta架构的GPU——GV100,并与医疗影像行业结合;
  • DGX2——世界最大GPU诞生!重达350磅,有汽车后备箱那么大;
  • TensorRT 4发布,为超大规模数据中心提速100倍;
  • 发布针对自动驾驶场景的解决方案。

本次大会的四大主题

图像、科学、AI、机器人?

“今天,我们将讨论令人惊讶的图像,令人惊讶的科学,令人惊讶的人工智能和令人惊讶的机器人。”刚一上场,黄教主就带着他一贯的激情脱口而出了四个“令人惊讶的”。

黄教主首先回忆了第一部电影的诞生,以及电影工业的发展。而这一切离不开GPU的支持。

发布全球首个基于Volta架构的GPU——Quadro GV100

“15年来计算机图形学最重要的进步”

今天发布的第一款产品是Quadro GV100——世界上第一款基于Volta架构的GPU工作站。它的创新之处是带有一个名为NVLink 2 的全新连接点,这一连接将编程和内存模型从一个GPU扩展到第二个,从而链接起来,使它们像一整个GPU那样工作。这两个GPU共有10,000个CUDA内核,236个teraflops的Tensor Cores和64GB内存。

“现在每年产生10亿张图片,而且可以再增加10倍,因为Quadro可以把实时渲染降低到现有成本的1/5,现有空间的1/7,和现有功耗的1/17”,黄教主接着说道。

这一产品的主要使用场景是计算机图像,例如电影和游戏产业。黄仁勋接下来展示了目前已经有的三十多个主要合作伙伴,涉及游戏、设计、电影、建筑等行业。他非常激动地称,这项技术是15年来计算机图形学最重要的进步。

与医疗影像结合,推出虚拟化数据中心

这一芯片产品的另一个可广泛应用的领域是医疗行业。

黄教主展示了一张15年前的超声波图像并将其与一张现在的超声波图像比较。可以明显看到前者模糊的灰色像素,而后者甚至可以看到胎儿的准确肤色。

正是因为基于GPU的计算技术发展,现在可以比以前更好地重建图像,通过渲染来释放更多洞察力并迅速可视化图像。为了确保这一技术更好更快地应用到医疗行业的硬件设备上,英伟达还为此推出了Clara项目——远程、多模式、多用户的虚拟化数据中心,可以为每个系统进行虚拟更新。

黄教主说,英伟达在现代医学成像方面所做的工作是他最感到自豪的事情之一。

DGX-2——世界最大GPU诞生!

这个庞然大物包含20亿个晶体管,其中每个GPU都通过光纤交换机通信,所以它的工作原理更类似一个交换机而不是一个网络。

这款GPU重达350磅(超过300斤),有汽车后备箱那么大,“没有人能把它举起来”,黄教主调侃道。

DGX-2的处理能力是去年9月发布的DGX-1的10倍以上。

DGX2示意图?

这款全球最强大的电脑售价为39.9万美元(约250万人民币)。

黄教主称,它可以取代300台消耗为180千瓦的双CPU服务器,而这三百台计算机总价值为3百万美元,使用DGX-2可以将成本降为之前的八分之一,并将占地空间降到之前的六十分之一。

5年前,在2个GTX 580上训练Alexnet神经网络需要花费6天,但现在使用DGX-2只需要训练18分钟。时间单位从“天”降低到“分钟”,产生巨大对比。

发布NVIDIA GPU Cloud(NGC)

黄教主接着说道:“在数据和计算量的‘双重指数级’增长的背景下,出于为越来越复杂的系统和软件提供支持的目的,我们发布了NVIDIA GPU Cloud(NGC)。”

不论使用什么云,都可以在NGC上使用相同的堆栈,现在的NGC已经有了两万注册用户,而这仅仅是去年发布后的一小部分。NGC已经通过了AWS、Google Cloud、Oracle Cloud和阿里云的认证。它是一个能在任何云上运行的唯一体系结构。

TensorRT 4发布,超大规模数据中心提速100倍

黄教主用一张幻灯片展示了超大规模数据中心需要考虑的7个重要因素,并强调,超大规模数据中心是有史以来最复杂的计算机。

目前世界上大概有3千万台超大规模服务器。英伟达在2016年9月推出TensorRT,这是专门用来服务超大规模数据中心的芯片。

2017年4月推出TensorRT 2;2017年9月推出Tensor RT 3。今天英伟达发布了TensorRT 4——它可以处理循环神经网络,与TensorFlow深度融合。完成网络训练后,它可以直接在设备上运行。

Tensorflow官方推特也同期发布了这一消息?

黄教主称,这一更新可以让图像加速190倍,自然语言处理加速50倍,推荐引擎提速45倍,语音提速36倍,语音识别率提高60倍。“总体而言,我们将超大规模数据中心的速度提高了100倍。会节省很多钱。

黄教主接下来发布了Kubernetes,用来协调数据中心服务器海洋中的工作负载——目前已经可以被GPU识别。

发布针对自动驾驶场景的解决方案——Perception基础架构

Uber自动驾驶致死行人事件让自动驾驶技术的发展被推到了风口浪尖。本次发布会上,黄教主也着重强调了自动驾驶场景。

“安全是最重要的一件事。这是最难的计算问题。发生致命事故后,我们提醒自己,这项工作非常重要。我们需要一步一步地解决这个问题,因为这么多事情都处于危险之中。如果我们做得对,我们有非常大的机会挽救生命。”

而对于无人车的安全性,高效可用的芯片被摆上了举足轻重的地位。英伟达称已经花了五到七年的时间来了解这个系统。“我们正试图从头到尾思考这个问题,这里的四个支柱是:收集数据,训练模型,模拟,驾驶。”

黄教主接下来推出并详细介绍NVIDIA应用于自动驾驶场景的Perception基础架构:

  • 每辆汽车都在收集PB级的数据,我们将其标记为数据因子 - 每月有1500人来标注100万件物品;
  • 我们在NVIDIA DGX系统上进行训练,然后我们进行验证;
  • 最终创建网络,我们现在在车上有10个网络。每个网络有10个DGX分配

这10个网络涵盖感知、自由空间距离感知、天气,激光雷达感知、基于相机的映射、相机定位到高清地图、激光雷达定位到高清地图、路径感知和场景感知。

“我们正在试图创建一个自动驾驶汽车流量和基础设施,这样整个行业就可以利用这一点,并创造出自动驾驶汽车的未来。”

不过,据海外媒体TechCrunch报道,在Uber事故后,英伟达已暂停其自动驾驶测试。不知是否受此影响,英伟达股价今天持续走低,累计下跌超9%。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档