英伟达的Rev Lebaredian表示，合成数据可以使AI系统变得更好

数据派THU

发布于 2022-03-14 12:42:41

5020

发布于 2022-03-14 12:42:41

文章被收录于专栏：数据派THU

来源：ScienceAI本文约4100字，建议阅读8分钟你是否仍在使用真实数据来训练AI？

这可能违反直觉。但有些人认为，训练必须在混乱的现实世界环境中工作的人工智能系统（例如自动驾驶汽车和仓库机器人）的关键实际上并不是现实世界的数据。相反，有人说，合成数据将释放人工智能的真正潜力。合成数据是生成而不是收集的，咨询公司 Gartner 估计，用于训练 AI 系统的数据中有 60% 将是合成的。但是它的使用是有争议的，因为关于合成数据是否能够准确地反映现实世界的数据，并为现实世界的情况准备人工智能系统的问题仍然存在。

Nvidia 已经大范围应用合成数据，并正在努力成为年轻行业的领导者。11 月，Nvidia 创始人兼首席执行官黄仁勋宣布推出 Omniverse Replicator，Nvidia 将其描述为「用于生成具有基本事实的合成数据以训练 AI 网络的引擎」。为了找出这意味着什么，媒体与 Nvidia 的仿真技术和 Omniverse 工程副总裁 Rev Lebaredian 进行了交谈。

Omniverse Replicator 被描述为「一个强大的合成数据生成引擎，可以生成用于训练神经网络的物理模拟合成数据」。你能解释一下这是什么意思，尤其是你所说的「物理模拟」是什么意思？

Rev Lebaredian：电子游戏本质上是对梦幻世界的模拟。有一些尝试让游戏的物理特性变得更加逼真：当你炸毁一堵墙或一座建筑物时，它就会倒塌。但在大多数情况下，游戏并没有试图做到真正的物理准确，因为这在计算上非常昂贵。所以它总是：为了使它作为一个计算问题易于处理，你愿意做什么样的近似？视频游戏通常必须在小型计算机上运行，例如控制台甚至手机。所以你有那些严格的限制。游戏的另一件事是它们是幻想世界，它们的目的是为了有趣，所以现实世界的物理和准确性不一定是一件好事。

对于 Omniverse，我们的目标是做一些以前在实时世界模拟器中从未做过的事情。我们正在尝试对世界进行物理上准确的模拟。当我们说物理上准确时，我们指的是与物理相关的所有方面。事物在物理世界中的外观是光与物质的相互作用，因此我们对其进行模拟。我们模拟原子如何与刚体物理、软体物理、流体动力学以及其他任何相关的相互作用。因为我们相信，如果你能足够接近地模拟现实世界，那么你就会获得超能力。

什么样的超能力？

Lebaredian：首先，你得到了传送。如果我可以将这个房间带到我身边并在虚拟世界中呈现它，那么现在我可以在那个世界中移动我的相机并传送到任何位置。我甚至可以戴上 VR 头戴设备，感觉自己置身其中。而且，如果我可以将现实世界的状态与虚拟世界的状态同步，那就真的没有区别了。我可能在火星上有传感器，可以接收现实世界并将该信息的副本实时发送到地球——或者 8 分钟后，或者以光速从火星传播所需的任何时间。如果我可以虚拟地重建那个世界并将自己沉浸其中，那么实际上就像我在 8 分钟前传送到火星一样。

并且给定一些关于世界状态的初始条件，如果你能足够准确地模拟，那么你就有可能预测未来。假设我现在拥有这个房间里的世界状态，我拿着这个电话。我可以模拟我松开手摔倒的那一刻会发生什么——如果我的模拟足够接近，那么我可以预测这款手机将如何掉落并撞到地面。真正酷的是，你可以改变初始条件并做一些实验。你可以说，替代期货会是什么样子？如果我重新配置我的工厂？在我的环境中操作事物做出不同的决定怎么办？这些不同的未来会是什么样子？这使你可以进行优化。你可以找到最好的未来。

好的，这就是您尝试使用 Omniverse 构建的内容。所有这些对人工智能有什么帮助？

Lebaredian：在这个人工智能的新时代，开发高级软件不再是一个只有笔记本电脑的研究生就能做的事情。它需要大量的投资。人类未来将开发的所有最先进的算法都将由需要大量数据的系统进行训练。这就是为什么人们说数据是新的石油。收集数据的大型科技公司似乎具有天然优势。但事实是，对于我们将在未来创建的大多数人工智能，我们目前收集的数据都没有那么有用。

当我们为 [the Conference] SIGGRAPH 2017 做演示时，我注意到了这一点。我们有一个可以玩多米诺骨牌的机器人，我们有多个必须训练的 AI 模型。其中一个基本模型是计算机视觉模型，它可以检测桌子上的多米诺骨牌，告诉你它们的方向，然后告诉你每张多米诺骨牌上有多少点：一个、五个、六个或其他。

谷歌肯定会拥有训练这种人工智能所需的所有图像数据。

Lebaredian：你可以搜索谷歌图片，你会发现很多多米诺骨牌的图片，但你会发现，首先，它们都没有标签。一个人必须标记每张多米诺骨牌是什么以及每张多米诺骨牌的侧面，这是一大堆体力劳动。但即使你通过了标签，你会发现图像并没有太多的多样性。

我们需要算法对不同的照明条件具有稳健性，因为我们将在实验室对其进行训练，然后将其带到 SIGGRAPH 的展示厅。我们使用的摄像头和传感器也可能会发生变化，因此它们周围的条件可能会有所不同。我们希望该算法适用于任何类型的多米诺骨牌，无论它们是塑料、木材还是其他任何材料。因此，即使对于这个非常简单的事情，必要的数据也不存在。如果我们要收集这些数据，我们将不得不购买数十甚至数百个不同的多米诺骨牌，设置不同的照明条件和不同的传感器等等。所以，当时，我们很快在游戏引擎中编写了一个随机多米诺骨牌生成器，将所有这些东西随机化。在一夜之间，我们训练了一个可以稳健地完成此任务的模型，它在会议中心使用不同的摄像头工作。

这是一个简单的案例。对于像自动驾驶汽车或自主机器这样更复杂的东西，我们需要的数据量，以及这些数据的准确性和多样性，是不可能从现实世界中获得的。真的没有办法解决它。如果没有物理上精确的模拟来生成这些 AI 所需的数据，我们就无法取得进展。

使用 Omniverse Replicator，客户是否获得了万能的合成数据生成器？还是您为不同的行业量身定做？

Lebaredian：我们使用 Omniverse 构建的是一个非常通用的开发平台，任何人都可以根据自己的特定需求进行定制。开箱即用，您可以获得多个渲染器，它们是光和物质物理的模拟器。你会得到一系列的它们，让你用准确性来换取速度。

我们有很多方法可以将 3D 数据作为 Omniverse Replicator 的输入来生成您需要的数据。如今，几乎所有人造的东西，在某个地方都有它的 3D 虚拟表示。如果您正在设计汽车、电话、建筑物、桥梁或其他任何东西，您可以使用 CAD 工具。问题是所有这些工具都说不同的语言。数据有不同的格式。很难将它们组合起来并构建一个包含所有这些组成部分的场景。

借助 Omniverse，我们尝试连接所有这些现有工具并协调它们，这非常麻烦。我们在一个名为通用场景描述的系统之上构建了 Omniverse，该系统最初由 Pixar 开发，后来开源。我们认为 USD 之于虚拟世界就像 HTML 之于网页：这是描述事物的常用方式。我们围绕美元构建了很多工具，让用户可以转换数据、修改数据、随机化事物。但源数据几乎可以来自任何地方，因为我们拥有所有相关工具的连接器。

你能给我一个使用 Replicator 为 AI 训练制作合成数据的行业的例子吗？

Lebaredian：我们已经展示了自动驾驶汽车的例子。研究如何让车辆自动驾驶需要大量资金，而合成数据正在成为训练人工智能系统的主要部分。我们已经在 Omniverse Replicator 中针对该领域进行了一些专门化：我们拥有大型户外世界，其中包括道路、车道、汽车、行人和路牌以及所有类似的东西。

我们还对机器人进行了一些专业化。但是，如果我们不支持你的领域，因为它是一个工具包，你仍然可以使用它做你喜欢的事情。人们有许多途径可以引入自己的 3D 数据或获取数据来构建虚拟世界。那里有图书馆和第三方 3D 资产提供者。

对于一家自动驾驶汽车公司来说，生成合成数据的一个优势是它可以在危险条件下训练其车辆，对吧？它可以放入冰雪，急转弯之类的东西？

Lebaredian：它们可以改变白天和黑夜的条件，并将行人和动物置于你不想在现实世界中构建的危险环境中。我们不想让人类或动物在现实生活中处于危险境地，但我确实希望我的自动驾驶汽车知道如何应对这些边缘情况。因此，我们可以在安全第一的虚拟世界中训练他们，这是个两全其美的办法。

因此，这些合成数据可以在 AI 训练中用作「真实数据」，并带有超准确的内置标签。但这是最好的训练策略吗？这些人工智能系统通常需要在信息不完整和不完善的世界中运行。

Lebaredian：这对训练部分有好处。今天创建大多数人工智能的方式是通过一种称为监督学习的学习。在可以区分猫和狗的神经网络示例中，首先用带有以下标签的猫和狗的图片对其进行训练：这是一只猫，这是一只狗。它从这些例子中学习。然后，将该网络应用于未标记的新图像，它会告诉你每个图像是什么。

例如，在自动驾驶汽车中，你希望汽车通过其传感器了解周围所有汽车和行人的相对 3D 位置。但它只是得到一个只有像素的2D图像，没有相关信息。因此，如果你要训练一个网络来推断3D信息，你首先必须在 2D 中画一个框，然后你必须告诉它，「这是根据传感器使用的特定镜头的距离。」但如果我们在Omniverse中合成数据，我们就能以完全物理精度获得所有 3D 信息。我们可以提供准确的标签，而不会出现人类引入系统的错误。因此，我们训练的最终神经网络将更加智能和准确。

在这种情况下过度拟合是一个问题吗？使用合成数据训练的系统是否存在在合成数据上表现良好但在现实世界中失败的危险？

Lebaredian：合成数据实际上是解决过拟合问题的好方法，因为我们更容易提供多样化的数据集。如果我们正在训练一个网络来识别人们的面部表情，但我们只在高加索男性上训练它，那么我们就会过度拟合高加索男性，当你给它更多不同的主题时，它就会失败。但是，使用合成数据，我们更容易创建数据的多样性。如果我正在生成人类的图像并且我有一个合成数据生成器，它允许我改变人们的面部配置、他们的肤色、眼睛颜色、发型和所有这些东西。

似乎合成数据可以帮助解决算法偏差的大问题，因为算法偏差的来源之一是用于训练 AI 系统的数据集中的偏差。我们可以使用合成数据在我们更愿意生活的公正世界中训练人工智能，而不是我们实际生活的世界吗？

Lebaredian：我们正在合成我们的 AI 出生的世界。它们出生在一台计算机中，它们只是接受了我们提供给他们的数据的训练。因此，我们可以构建具有我们想要的多样性的理想世界，并且我们的 AI 可以更好地实现它。当它们完成时，它们比我们在现实世界中的任何人都更聪明。当我们把它们放在现实世界中时，它们的表现会比只接受它们在这里所见事物的训练时表现得更好。

那么使用合成数据有哪些陷阱呢？它容易受到对抗性攻击吗？

Lebaredian：对抗性攻击，类似于过拟合问题，并不是合成数据与任何其他类型数据相比所独有的。解决方案是拥有更多数据和更好的数据。

合成数据的问题在于很难生成好的合成数据。它要求您拥有像 Omniverse 这样出色的模拟器，并且需要一个物理上准确的模拟器，这样它才能与现实世界匹配得足够好。如果我们创建一个合成数据生成器来制作看起来像卡通的图像，那还不够好。你不会想把一个只知道如何解释卡通世界的机器人放在医院里，它会和老人和孩子一起工作。那将是一件可怕的事情。您需要您的模拟器在物理上尽可能准确才能使用它。但这是一个极其困难的问题。

相关报道：https://spectrum.ieee.org/synthetic-data-ai

编辑：于腾凯

校对：林亦霖