前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >20万美元,最高提速200倍!黄教主烤箱掏出7nm安培芯片,GPU史上最大性能飞跃

20万美元,最高提速200倍!黄教主烤箱掏出7nm安培芯片,GPU史上最大性能飞跃

作者头像
大数据文摘
发布2020-05-19 16:00:40
6680
发布2020-05-19 16:00:40
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘出品

作者:Andy、刘俊寰、魏子敏

来了,来了,穿着熟悉的皮衣,史上最硬核直播带货王者又来了。

推迟了2个月,北京时间5月14日晚9点,英伟达创始人兼首席执行官黄仁勋在自家的厨房里,“亮相”GTC 2020主题演讲会。他把这次的发布会称为,“英伟达史上首次Kitchen keynote(厨房发布会)”。

这次,芯片圈的“李佳琦”带来了安培(Ampere)架构GPU!7nm工艺,540亿晶体管,20倍AI算力。

NVIDIA还没有正式公开安培GPU的详细架构细节,但是跟上次的图灵GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。

当然,价格也很美丽,20万美元一个!

不过,看了直播的同学都表示,真的心动!buy more save more,速度提升太多了!

先来看看黄教主重点强调的五大关键性能:

  • 超过540亿个晶体管,史上最大的7nm处理器。
  • 第三代Tensor Core AI核心,支持英伟达自创数值格式TF32 (Tensor Float 32) 运算,无需任何代码修改就能让单精度 AI 训练提速20倍,同时支持FP64双精度运算,比起上一代GPU提速了2.5倍。这样一来,NVIDIA 被广泛应用的 Tensor Core 也就变得更灵活,更快,更易于使用了,黄教主如是说。
  • 结构稀疏加速,这是一种新的高效技术,主要利用了现有 AI(神经网络)固有的稀疏性来获得更高的性能。
  • 多实例GPU,又名MIG,允许将一个 A100 划分为多达七个独立 GPU,每个GPU都有自己的资源。
  • 第三代 NVLink 技术使GPU之间的高速连接能力加倍,允许多个 A100 服务器可以充当一个巨型GPU。

再来仔细看看这个庞然大物?,超过3万个组件,重量达到了50磅(45斤),通过NVLink连接的八个GPU(600 GB),每秒六个NVSwitch,一百万次钻孔,一公里的走线连接。

特殊时期,这次的发布也不同以往,以8段视频录像的方式放出,总计一个半小时,感兴趣的同学可以在以下链接直接观看。

链接指路?

https://www.nvidia.cn/gtc/keynote/?ncid=so-wech-89131&sfdcid=DL01

基于 Ampere 架构的数据中心 GPU 卡 A100

正如黄教主提到,这次发布会的一个关键词,便是,数据中心。

本次“厨房”发布会的重头戏,A100 被刻意给了近 24 分钟的长度,而有些短的视频只有可怜的 6 分钟。

现代数据中心架构最大的特点就是复杂性。我们需要在上面跑各种各样的应用,此外还有数据处理,AI 训练推断等等等。这让整个现代数据中心无比复杂。

而英伟达针对这样的复杂度,第一步就是先将 CPU 服务器和存储服务器给拆解开,而中间所需的高速传输,就靠新的小伙伴 Mellanox 提供的高速网络支持。

而第二步就是对其中个各种工作进行统一加速。而过去发布的硬件都是对各自的一些任务进行专有加速。所以对于据有弹性的能对各个任务的芯片需求是非常大的,特别是云服务,对这样的硬件更加需求。

毫无疑问的云服务也是过去整个计算机领域增长最快的一个服务。

接着黄教主,便从怀里,哦不,烤箱里掏出了他此次发布会的终极产品,金光闪闪的 NVIDIA A100 数据中心 GPU 卡。主要基于的技术便是大家期盼已久的 Ampere 技术,卡代号 A 想来也是 Ampere 的缩写。

?5月12日,英伟达官方就已经发布了一个短视频《老黄在厨房里忙活啥?》,视频中,黄教主从烤箱中拿出了“世界上最大的GPU”,并表示,“已经烤了一段时间了”,亲自为演讲预热。

这张A100处理器板重达50磅,通过NVLink连接的八个GPU(600 GB),每秒六个NVSwitch,一百万次钻孔,一公里的走线连接。超过30,000个组件。

当然不光是硬件上面惊人,在实际性能上也带了惊人的提升。

A100卡上最大的几个突破是,第一它用了台电7纳米级别专为英伟达优化的处理器,同时将其连接在HBM2内存上,于是就能提供1.5TB的缓冲带宽!这是历史上首个可以每秒超过1.5TB带宽的处理器。

第二点,A100还支持英伟达自己开发的新数值格式TF32 (Tensor Float 32) ,它能表示一般FP32位的范围,而却只需FP16的精度。这就意味着,如果需要对32位加速的话,连代码都不要改,就可以直接实现加速效果。但是黄教主这里还遗憾的表示了没有对FP16的运算,还表示大家都在用FP32,但是文摘菌表示日常混合精度FP16真香,希望之后能带来FP16的加速,进一步提高速度。

之后黄教主展示了A100 TF32运算和V100的对比,提速非常明显。

除了TF32,A100还有一点非常值得关注的性能,那就是稀疏运算加速,首先训练一个密集网络,之后再将其中值比较小的直接置零,重新训,从而获得两倍的加速,模型大小也小了。

如果对最近深度学习理论成果有些了解的同学,一定会对这个过程非常熟悉,因为这就是去年才提出并且非常火的一个理论,彩票理论的训练过程。看到这里不得不感叹英伟达对学术前沿实现的快速,当大家还在继续探索彩票理论里面的理论细节时,他们已经直接给做到硬件上去了。

然后就到了秀图时间,黄教主展示出,A100 卡与之前最好的 GPU 卡 V100 的对比。

在各个精度上都有很大的提升,特别是通过稀疏加速后,在INT8精度上,相对于之前的 V100 加速了 200 倍!也就是如果用INT8训练模型的话,200天才能训练完的模型,现在只需要一天!

除了上面两个加速,Ampere 带个 A100 的第三个非常实用的性能是,MIG,多实例 GPU。

简单来说就是可以将一块大的 A100 分成多个小块,给大家一起用。

这对云服务器是非常重要的,这样的话就可以多个用户公用一张卡,而不用担心资源的问题。当然也可以大家众筹一张 A100,然后分着用。

当然给大家看再多数据或图都是空的,黄教主接着展示用 MIG 分卡后两个真实应用的加速。

第一个是自然语言处理中的推土机 BERT 预训练模型的训练,相对于 V100 卡,训练速度直接提高了 6 倍,而推理速度提高 7 倍;第二个是识别鸟声音的应用,用动画展示了加速效果。

黄教主接下来展示了 DGX,第三代 AI 集成系统。

发布NVIDIA DGX A100:世界上第一台5 Petaflops服务器

英伟达还发布了基于NVIDIA A100的第三代NVIDIA DGX AI系统,即NVIDIA DGX A100,这是世界上第一台5 petflops服务器。每台DGX A100可以分为多达56个示例,全部独立运行。

美国能源部的阿贡国家实验室将使用DGX A100的AI和计算能力来更好地理解和对抗COVID-19。

黄教主称,这使得单个服务器可以“扩展”以完成诸如 AI 训练之类的计算密集型任务,或者“扩展”以进行AI部署或推理。

该系统的最初接收者是美国能源部的阿贡国家实验室,该实验室将使用该集群的AI和计算能力更好地理解和对抗COVID-19。以及佛罗里达大学;和德国人工智能研究中心。

发布会上英伟达表示,一个由五个DGX A100系统提供动力的数据中心,用于AI训练和推理,仅需28千瓦的电源,就可以完成一个典型的数据中心的工作,成本为100万美元。

在正式演讲中,除了被期待已久的DGX A100,发布会还有以下亮点值得一看。

发布全新数据库Magnum IO

全新的IO SDK——黄教主将其命名为Magnum IO,它包括了跨节点的通信能力,从存储端到GPU移动数据,它将成为最重要的数据库。

英伟达联手Spark,支持NVIDIA GPU加速的Spark 3.0

为了将GPU加速处理用于更庞大的数据,也是为了帮助各种组织跟上发展,黄教主在发布会上宣布,联手Spark社区,Spark 3.0将支持NVIDIA GPU加速。

Spark 3.0实现了多项突破,不仅在成本的1/5、电力的1/3实现了功能,“买得越多,就越省钱”:还表现在以下四点:

  • IO存储和多节点管理计算快如闪电;
  • 更智能的调度,3.0系统能分清GPU和GPU内存,进而以分布式安排和管理工作;
  • RAPIDS能够提取数据、创建数据框、实现特征分析、SQL查询和拦截等;
  • Spark SQL加速器Catalyst已经完成优化,并部署在了Spark 3.0上。

黄教主表示,Spark 3.0基于RAPIDS构建,打破了提取、转换和加载数据的性能基准,目前已经帮助帮助Adobe Intelligent Services降低了90%的计算成本。

目前,Amazon SageMaker、Azure机器学习、Databricks、Google Cloud AI和Google Cloud Dataproc等关键云计算分析平台都借助英伟达实现加速。

发布推荐系统端到端框架NVIDIA Merlin

推荐系统正在吞并世界,从电影到商品的选购,都离不开个性化的机器学习推荐系统。

发布会上,英伟达还发布了全新深度推荐系统应用框架NVIDIA Merlin,用于构建下一代推荐系统的端到端框架。

新的框架系统主要针对大规模数据的处理,黄教主举例称,针对1TB的数据集,Merlin将创建推荐系统可以将所需的时间从1天半减少到16分钟。针对100TB的数据集,使用Merlin可以将数据处理时间从20天减少到4天。

更好的DDLS,更多的高清游戏地图

2018年,英伟达的RTX的宣布开启了计算机图形的新纪元。

黄教主表示,A100将搭载第三代Tensor内核,以实现更快更高效的AI学习和扩展,在A100中,那些第三代Tensor内核也将使用一种称为TF32的新数学格式,旨在加快其开箱即用的AI培训的数量。

近两年随着AI的不断进步,放大低分辨率图像,以更高分辨率和更高清晰度重新呈现,根据黄教主介绍,英伟达这次利用了全新的RTX和DLSS 2.0进行演示。诚然,这不是在A100 GPU上运行的,但仍然让我们看到了光线跟踪和DLSS未来的发展方向。

过去这两年,英伟达也一直在针对这项技术不断创新,在与《我的世界》的合作中,有一个完全可玩的基于物理的游戏的演示,该游戏同时使用了光线追踪和AI技术。Nvidia Omniverse平台(9分45秒)可在单个Quadro RTX 8000 GPU上实现交互式实时逼真的环境。

效果如下图所示,只恨网速带不动这么高清的画面:

同时,英伟达还联合与《我的世界》建造者合作,在Windows 10 Beta版上为《我的世界》RTX版打造全新地图,供玩家免费体验。这也是英伟达发布的第二波《我的世界》体验地图,即日起可在《我的世界》下载这5个全新作品。

语音对话的系统平台NVIDIA Jarvis新动向

此外,黄教主还重点介绍了用于语音对话的系统平台NVIDIA Jarvis,用于创建实时,多模式对话式AI,视频中,展示了与友好的AI Misty进行交互的过程,Misty实时了解并回答了一系列有关天气的复杂问题。

与宝马合作,Isaac机器人下车间

发布会上,英伟达还公布了在机器人领域的新进展,宣布已经与宝马汽车合作,在其下一代工厂中引入NVIDIA Isaac机器人,完善自动化生产能力。

新冠疫情之下,英伟达让我们半忧半喜,早在2月中旬,英伟达首次宣布取消MWC 2020,但在半个月前,英伟达又以70亿美元的价格打败英特尔和微软,拿下以色列芯片商Mellanox,完成史上最大规模的一次收购。这次的发布会也是非常高产,最后,文摘菌也放上发布会完整内容以及各部分链接,感兴趣的同学可以找最感兴趣的内容观看啊?

【Youtube】NVIDIA GTC 2020 Keynote 播放列表

https://www.youtube.com/playlist?list=PLZHnYvH1qtOZ2BSwG4CHmKSVHxC2lyIPL

介绍?

https://www.nvidia.cn/gtc/keynote/?video=1

RTX图形?

https://www.nvidia.cn/gtc/keynote/?video=2

高性能计算和数据分析?

https://www.nvidia.cn/gtc/keynote/?video=3

推荐系统?

https://www.nvidia.cn/gtc/keynote/?video=4

对话AI ?

https://www.nvidia.cn/gtc/keynote/?video=5

A100 GPU, HGX A100, & DGX A100?

https://www.nvidia.cn/gtc/keynote/?video=6

边缘AI与机器人 ?

https://www.nvidia.cn/gtc/keynote/?video=7

自动驾驶?

https://www.nvidia.cn/gtc/keynote/?video=8

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档