前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >英伟达研究亮点和启发

英伟达研究亮点和启发

作者头像
用户1324186
发布2021-09-17 16:56:14
8520
发布2021-09-17 16:56:14
举报
文章被收录于专栏:媒矿工厂

来源:NVIDIA GTC21 主讲人:Bill Dally,Chief Scientist & SVP Research, NVIDIA 内容整理:付一兵 这篇文章主要介绍了英伟达研究部门在过去一年中的一些亮点,包括高性能光信令、深度学习加速、将人工智能应用于视频编码以及计算机图形学的最新进展。

目录

  • 光子通信
  • 深度学习加速器
  • GANCraft
  • 总结

Bill 首先简单介绍了他所在研究实验室。这里松散地分为供给方和需求方,供应方试图开发技术 直接为产品组提供更好的 GPU 和更好的电路。另一方面设计方法的架构,以降低使用成本。接着介绍了 NVIDIA 实验室在不同阶段完成的三个最新的研究成果。

NVIDIA 实验室的一些研究方向

1光子通信

电信号的扩展速度放慢

我们不仅在构建一个 GPU,而且是在构建一个系统,它整合了许多 GPU 开关并连接到一个更大的数据中心,为了做到这一点,我们需要技术来让GPU彼此之间以及系统的其他元素进行通信。这变得越来越难,有两个原因。第一是多年来的技术大体上停止,这就意味着我们不能以更高更广泛的频率发出信号。第二比特率和长度的矛盾。十亿每秒的比特率下,我们只有一米的距离,这几乎不足以从 GPU 到达顶部机架开关。

我们想要在一毫米芯片边缘上每秒获得尽可能多的比特,正因如此我们将建造 100 太比特的交换机,希望能够达到至少 10 米的距离。最有希望做到这一点的技术是密集波分复用(Dense Wave Division Multiplexing,DWDM)。下图显示了总体架构。

DWDM 系统总体架构

系统层面上,一个叫做 PIC 的小块连接着光纤。关键是光学引擎 OE,它有接收近距离信号的主机电接口,一个来自 GPU 的电接口,有调制器驱动器来调制环形谐振器以及控制电路,有波导管来对能量进行分级,将能量导入光纤,然后进入开关。

连接光信号的 GPU/NVSWITCH

到目前为止,我们已经做了两个测试芯片来测试不同的组件,这些芯片包含环形谐振器,分级耦合,波导,系统的所有部分,从根本上说组成这个系统的各个组成部分必须工作起来,和开发像 GPU 这样的电路完全不同。

2深度学习加速器

深度学习几乎改变了今天生活的方方面面,有三种成分是必须的,就像让引擎运转需要空气,燃料和火花。

为了让深度学习发挥作用需要算法,比如梯度下降和反向传播,这些算法早在 20 世纪 80 年代就出现了,当然最近有了一些改进,但基本技术大约是在 20 世纪 80 年代出现,算法就像是“空气”。然后是“燃料”,是你训练的网络的图像或数据,这些数据是在 2000 年早期出现的。

而那个“火花”就是 GPU,它提供了足够的计算能力,在合理的时间内在足够大的数据集上训练足够大的模型。从那时起火花真的点燃了一场革命。随着时间的推移,这场革命已经被更快的硬件的可用性所限制,所以我们在视频领域有责任继续提供更快的硬件。

最近,语言模型从基于 transformer 的模型到 GPT ,在短短几年内几乎有3个数量级的增长,而且实际上还在增加,人们基本上就是在训练越来越大的模型,在模型变得越来越大的同时也变得越来越普遍,它们正在进入各种各样的物联网设备边缘设备,有各种各样的应用。为了探索更复杂的模块和让这些模型广泛应用,我们必须继续扩展GPU的性能。

317X 在 8 年间的单芯片推理性能变化

到目前为止,我们在这方面做得很好。这个图表说明了我们所说的黄氏定律,也就是 GPU 推理性能每年增加一倍。我们实验的一种方法是深度学习加速器,下图中前两项是与学术界的合作项目,左边的尝试了处理稀疏性的方法,是一个有效的推理引擎,下一个真正地引入了空间堆积概念和使用优化的数据流,以非常高效的方式移动数据,所以大部分的精力都花在数学运算上 而不是数据移动上。在 2017 年 我们做了另一个稀疏性实验,在 2019 年我们建造了右边展示 RC 18。

NVIDIA 研究 DL 加速器的历史

我们现在要做设计出非常高效的,没有网络的加速器。在2019年我们设计了一个叫做 Magnet 的工具,它需要一个深度学习模型,可以是一个图像模型或者一个语言推荐模型,然后开始搜索设计空间,以一种高效的搜索方式提出最有效的安排。最近 Steve 提出用更少的bit位得到更多的信息的方法,即通过缩放矢量而不是张量,把 bit 位集中在最能发挥作用的地方。通过做向量缩放能更好地表示相同位数的权值。

NVIDIA 当前研究:MAGNet 和 VS-QUANT

下面展示这两个项目的一些成果,下图中除了做一些Joel和Vivian最初首创的数据流,比如 wait stationary,output stationary,这是前两栏,我们在内存层次结构中引入了一个额外的层次,weight collectors 和 output activation collectors。通过在内存层次结构中引入这个额外的层,我们能够从权重和激活中获得足够的额外重用,实际上现在大部分的精力都花在计算绿色条形图上了,只有不到40%的能量用于内存轴和数据移动。权重和激活都有一定的精确度,这项技术可以在 16 纳米内完成。通过提供向量缩放,我们可以从初始点开始,也就是灰色停止的点,在性能微小下降的情况下空间表现提高了 70%,能量表现提高了 20%。

上述两个研究的实验结果

耗能,占据面积及精度之间的平衡

总之,

  • MAGNet,实现优化的多级数据流和HW设计空间搜索,40 fJ/op (16 nm)
  • VS-Quant,每矢量扩展实现了 4b 精度,精度损失<1%。

需要继续提升深度学习的推理性能。其他一些正在进行的和未来的研究包括:

  • 数字表示法(int、log、scaling)。
  • 编排(缓冲器和收集器)
  • 稀疏性
  • 电路
  • 技术

3GANCraft

把 MINECRAFT 游戏变成现实世界

Minecraft 培养了一代喜欢建造 3D 世界的游戏玩家。我们想采用 GauGAN 的技术把一个 Minecraft 世界变成一个真实的世界。第一个挑战就是没有相应的真实世界的图像,第二个挑战是现有的基于 GAN 的图像合成方法不能生成视图一致的输出结果,当你从一个帧到另一个帧的时候,东西会忽隐忽现,因为它从分布中生成图像。要如何解决这一切?首先把相机放在那里,沿着样本的数组进行采样,然后生成一个分割图,我们不能只用分割图来制作图像,因为它不一致,但我们可以使用分割图生成伪 ground truth。

训练过程--伪 ground truth 的产生过程

接下来我们要做的是采用最近的一项技术神经辐射场,通过每点 MLP 沿射线从 voxel 中抽取 N 个点,并混合它们以获得图像像素特征。这样基本上创造了一个二维的像素特征数组,然后我们取第二个传统的神经网络来渲染图像。

训练过程--逐像素 MLP 并混合产生图像像素特征

训练过程--CNN 渲染器

现在我们需要做的是训练它,用来训练网络的东西是基于和伪 ground truth 之间的比较。另一方面 我们是想训练它使它与我们想要的风格相匹配,因此我们使用样式编码器来调节卷积和生成输出图像的神经网络。

训练过程--采用风格编码器

我们在输出和伪 ground truth 之间应用了 GAN 损失、VGG-19 感知损失和像素级损失,还在输出和真实图像之间应 GAN 损失,以提高输出的真实性。下面是一些结果。

实验结果

实验结果

实验结果

4总结

  • NVIDIA 的研究
    • 为了未来的成功
    • 从电路到架构,从图形到人工智能
    • 技术转化:光线追踪,网络与人工智能
  • 光子通信
    • DWDM:8-32 个波长,每个波长 25-50Gb/s,0.2-1.6Tb/fiber
    • 1 - 8.5 Tb/s-mm (带宽密度)
    • 能量效率:在 GPU 封装中达到 1.5pJ/b 在远程激光源处达到 2pJ/b
    • 距离 > 100 米
  • 深度学习加速器
    • 25TOPS/W (16nm)
    • MAGNET - 搜索设计空间,生成一个加速器
    • VS-Quant - 向量缩放,实现低精度表示法
  • GANCraft
    • 将 MineCraft 的世界变成逼真的图像
    • 伪 ground truth,CNN渲染器,风格编码器

附上演讲视频:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1光子通信
  • 2深度学习加速器
  • 3GANCraft
  • 4总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档