NVIDIA想要用AI实时生成视频，效果远超想象

文章来源：企鹅号 - 青亭网

hi188｜撰文

人工智能及其应用的发展速度远超想象，在NVIDIA面前更是如此。

NVIDIA刚刚在NeurIPS大会上展示了一项新的人工智能应用，可以看作是一个驾驶模拟系统，特点是其中的视频内容由AI生成，你可通过真实方向盘来控制视频内的车辆。

可能第一眼看上去并无太大差异，只是略微有些模糊而已。然而，我要告诉你的是：这是一段通过AI技术并结合游戏引擎实时生成的虚拟视频。

视频内的场景布局逼真、自然，车辆行驶流畅，超乎了我的想象。虽然仔细看仍能看出一些不真实的地方，但依然会大吃一惊。不禁反问，这还是那个曾经为了提升游戏画面不断推出更高性能显卡的NVIDIA吗？

视频的“生成”

NVIDIA深度学习应用副总裁Bryan Catanzaro向外媒The Verge讲到：“这是通过深度学习渲染视频的新方式。很显然，NVIDIA非常关心图像的生成，同时我们还在思考如何通过人工智能改变这一领域。”

首先，我们来回忆一下日常看到的视频都是如何完成的。从视频内容的虚实角度来看，视频内容可以分为以下两大类：

第一类是直接拍摄的实拍视频，通过相机来直接拍摄的真实图像。

第二类是动画、CG渲染等方式生成的虚拟视频，例如游戏、动画电影等，甚至有些游戏场景画面已经足够接近现实，甚至达到超现实主义画风，比真实场景更讨好的观感。

而今天NVIDIA针对的就是第二类，虚拟视频的生成。相信很多影视制作、游戏制作领域的朋友对此都不陌生。

游戏引擎们

游戏制作领域，制作者通常会采用大公司推出的较为成熟的引擎，例如Unity、Unreal Engine等。甚至也有些大的游戏公司拥有自己的游戏引擎，EA公司的寒霜、育碧公司的Realblast引擎等。

而在CG领域，同样也会结合到游戏引擎。为了解决游戏实时的光线追踪难题，NVIDIA已经推出民用级NVIDIA RTX系列显卡，进一步下探了制作和应用上的局限。

AI变革视频渲染方式

很显然，NVIDIA展示的视频并不是真实的场景。其中，一个重要的识别方式在于它比较模糊，没有那么清晰。作为对比，当下售价200元左右的行车记录仪拍摄的视频也比上图要清晰。

实际上，这背后的技术并不新颖。早在今年8月份，NVIDIA就公布了一套名为vid2vid的视频转换方法，并随之在Arxiv公布论文。

论文提到如何基于现有技术实现该方案的方式，其中包括了一个名为pix2pix的开源系统，并由此开发了一套生成式对抗网络模型（GAN）。这些技术都是当前角为成熟的AI图像生成方式，包括此前由佳士得拍卖出的首个AI创作的画作，也是基于此模型创作诞生的。

这里简单讲一下几者的不同。

GAN：生成式对抗网络模型，通过自我判断真假来不断强化学习的图像生成技术，不足在于不受人为控制，且画面分辨率和质量较低；

pix2pix：可以理解为GAN升级版，特点是支持有条件输入，通过成对的数据进行训练，点此体验草图生成图片。

pix2pixHD：pix2pix高阶版，可生成高分辨率、更高质量的图像。

当然，这仅仅是一个驾驶模拟系统，你可以通过方向盘来控制视频内的车辆驾驶，走几个街区都没有问题，场景非常简单而且局限，你不能离开汽车，也不能与场景互动。也就是说，这套系统目前只有驾驶员视角。

在NVIDIA看来，这其中最值得炫耀的就是它只通过一块显卡即可完成，虽然我们猜测可能是刚刚发布的Titan系列显卡，价格上并不亲民。

左上角：视频分割图; 右上角：pix2pixHD; 左下角：COVST; 右下角：Nvidia vid2vid

据悉，NVIDIA的这段演示场景制作分为三个步骤：

1，研究人员收集大量的训练数据，数据来自于自动驾驶的开源数据集；

2，将视频内容分割，具体到每一帧，同时将每一帧的图像进行识别后分类，例如图像中的汽车、天空、树木、建筑等都有了明确分类；

3，对分类数据进行GAN训练，从而生成新的版本

4，工程师基于UE4游戏引擎创建出虚拟环境的基础框架；

5，在此框架，基于深度学习算法实时生成每个不同类别的图像，然后将不同类别的图像与游戏引擎相结合。

Catanzaro表示：“一个视频场景的结构从传统角度来看都是被创造出来的，而人工智能生成的图像，但又不仅仅是图像那么简单。”这本身仅仅是一个演示Demo，并不能看作是一款游戏模型。

系统开发难点

在一段效果还不错的视频渲染技术Demo背后，是NVIDIA工程师不断攻破技术难点而努力的结果。

据了解，这其中最大的难点在于如何保持对象的持久性，在视频为25帧的速率下如何让对象持续且看上去足够连贯。Catanzaro谈到：“由于每一帧的颜色和纹理都会发生变化，因此这也是最头疼的问题。”

不过，工程师仍然找到一个解决方案，就是给系统增加了一个短期记忆的能力。其作用是将每一帧图像与前一帧图像比较，从中预测图像的运动方向和轨迹，从而创建出一个与之运动方向相同的新帧。

左上角:地面实拍；右上角:PredNet；左下角:MCNet；右下角:NVIDIA

虽然解决了图像稳定性的问题，但是也随之而来带来一个新的困扰。由于上个步骤用于判断和预测图像运动方向所需大量算力，因此当前的Demo仅能以25帧/秒的速度运行。

“这项时技术处于早期阶段，随着人工智能技术的不断演进成熟，可能需要几十年的时间才能普及到消费级应用场景中。”Catanzaro谈到，同时也谈到和光线追踪技术的对比。光线追踪技术是当前图形渲染的热门技术，不过由于种种限制，直到几周前才得以在游戏中展开应用，虽然它最初展现在大家面前已经是很多年之前了。

应用场景和领域

正因为当前这套系统还处于开发阶段，因此前在的应用场景也非常广泛。首先能想到的就机器人、自动驾驶厂商用于环境训练，用于自我模拟训练。

游戏引擎商店

当然，这相技术真正令我兴奋的则是应用在游戏制作、电影制作以及VR领域。利用AI技术制作大量相似的人物或场景，让内容制作变得更轻松。

ZEPETO应用

甚至是当前火热的社交应用ZEPETO，我们可通过AI技术在游戏中创建出更逼真的卡通画的头像，甚至是动态的人物形象等。

甚至外媒也指出了另一点担心，未来可能会有一些通过AI技术制作的虚假的政治人物视频，用于虚假的传播。当然，技术本身并没有对错，这一点实际上是很难避免的。

Catanzaro则表示，通过这项技术创建出误导性的内容并不是新出现的问题，在此之前通过任何渲染手段都可以做到这一点。他认为，NVIDIA正在与合作伙伴联合研究检测虚拟AI成品的方法。最终发现，这是一个“信任问题”，并不能单单靠技术来解决。

（END）

发表于: 2018-12-042018-12-04 20:05:13
原文链接：https://kuaibao.qq.com/s/20181204A1I5DF00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

NVIDIA想要用AI实时生成视频，效果远超想象

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐