首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NVIDIA想要用AI实时生成视频,效果远超想象

hi188| 撰文

人工智能及其应用的发展速度远超想象,在NVIDIA面前更是如此。

NVIDIA刚刚在NeurIPS大会上展示了一项新的人工智能应用,可以看作是一个驾驶模拟系统,特点是其中的视频内容由AI生成,你可通过真实方向盘来控制视频内的车辆。

可能第一眼看上去并无太大差异,只是略微有些模糊而已。然而,我要告诉你的是:这是一段通过AI技术并结合游戏引擎实时生成的虚拟视频。

视频内的场景布局逼真、自然,车辆行驶流畅,超乎了我的想象。虽然仔细看仍能看出一些不真实的地方,但依然会大吃一惊。不禁反问,这还是那个曾经为了提升游戏画面不断推出更高性能显卡的NVIDIA吗?

1

视频的“生成”

NVIDIA深度学习应用副总裁Bryan Catanzaro向外媒The Verge讲到:“这是通过深度学习渲染视频的新方式。很显然,NVIDIA非常关心图像的生成,同时我们还在思考如何通过人工智能改变这一领域。”

首先,我们来回忆一下日常看到的视频都是如何完成的。从视频内容的虚实角度来看,视频内容可以分为以下两大类:

第一类是直接拍摄的实拍视频,通过相机来直接拍摄的真实图像。

第二类是动画、CG渲染等方式生成的虚拟视频,例如游戏、动画电影等,甚至有些游戏场景画面已经足够接近现实,甚至达到超现实主义画风,比真实场景更讨好的观感。

而今天NVIDIA针对的就是第二类,虚拟视频的生成。相信很多影视制作、游戏制作领域的朋友对此都不陌生。

游戏引擎们

游戏制作领域,制作者通常会采用大公司推出的较为成熟的引擎,例如Unity、Unreal Engine等。甚至也有些大的游戏公司拥有自己的游戏引擎,EA公司的寒霜、育碧公司的Realblast引擎等。

而在CG领域,同样也会结合到游戏引擎。为了解决游戏实时的光线追踪难题,NVIDIA已经推出民用级NVIDIA RTX系列显卡,进一步下探了制作和应用上的局限。

2

AI变革视频渲染方式

很显然,NVIDIA展示的视频并不是真实的场景。其中,一个重要的识别方式在于它比较模糊,没有那么清晰。作为对比,当下售价200元左右的行车记录仪拍摄的视频也比上图要清晰。

实际上,这背后的技术并不新颖。早在今年8月份,NVIDIA就公布了一套名为vid2vid的视频转换方法,并随之在Arxiv公布论文。

论文提到如何基于现有技术实现该方案的方式,其中包括了一个名为pix2pix的开源系统,并由此开发了一套生成式对抗网络模型(GAN)。这些技术都是当前角为成熟的AI图像生成方式,包括此前由佳士得拍卖出的首个AI创作的画作,也是基于此模型创作诞生的。

这里简单讲一下几者的不同。

GAN:生成式对抗网络模型,通过自我判断真假来不断强化学习的图像生成技术,不足在于不受人为控制,且画面分辨率和质量较低;

pix2pix:可以理解为GAN升级版,特点是支持有条件输入,通过成对的数据进行训练,点此体验草图生成图片

pix2pixHD:pix2pix高阶版,可生成高分辨率、更高质量的图像。

当然,这仅仅是一个驾驶模拟系统,你可以通过方向盘来控制视频内的车辆驾驶,走几个街区都没有问题,场景非常简单而且局限,你不能离开汽车,也不能与场景互动。也就是说,这套系统目前只有驾驶员视角。

在NVIDIA看来,这其中最值得炫耀的就是它只通过一块显卡即可完成,虽然我们猜测可能是刚刚发布的Titan系列显卡,价格上并不亲民。

左上角:视频分割图; 右上角:pix2pixHD; 左下角:COVST; 右下角:Nvidia vid2vid

据悉,NVIDIA的这段演示场景制作分为三个步骤:

1,研究人员收集大量的训练数据,数据来自于自动驾驶的开源数据集;

2,将视频内容分割,具体到每一帧,同时将每一帧的图像进行识别后分类,例如图像中的汽车、天空、树木、建筑等都有了明确分类;

3,对分类数据进行GAN训练,从而生成新的版本

4,工程师基于UE4游戏引擎创建出虚拟环境的基础框架;

5,在此框架,基于深度学习算法实时生成每个不同类别的图像,然后将不同类别的图像与游戏引擎相结合。

Catanzaro表示:“一个视频场景的结构从传统角度来看都是被创造出来的, 而人工智能生成的图像,但又不仅仅是图像那么简单。”这本身仅仅是一个演示Demo,并不能看作是一款游戏模型。

3

系统开发难点

在一段效果还不错的视频渲染技术Demo背后,是NVIDIA工程师不断攻破技术难点而努力的结果。

据了解,这其中最大的难点在于如何保持对象的持久性,在视频为25帧的速率下如何让对象持续且看上去足够连贯。Catanzaro谈到:“由于每一帧的颜色和纹理都会发生变化,因此这也是最头疼的问题。”

不过,工程师仍然找到一个解决方案,就是给系统增加了一个短期记忆的能力。其作用是将每一帧图像与前一帧图像比较,从中预测图像的运动方向和轨迹,从而创建出一个与之运动方向相同的新帧。

左上角:地面实拍;右上角:PredNet;左下角:MCNet;右下角:NVIDIA

虽然解决了图像稳定性的问题,但是也随之而来带来一个新的困扰。由于上个步骤用于判断和预测图像运动方向所需大量算力,因此当前的Demo仅能以25帧/秒的速度运行。

“这项时技术处于早期阶段,随着人工智能技术的不断演进成熟,可能需要几十年的时间才能普及到消费级应用场景中。”Catanzaro谈到,同时也谈到和光线追踪技术的对比。光线追踪技术是当前图形渲染的热门技术,不过由于种种限制,直到几周前才得以在游戏中展开应用,虽然它最初展现在大家面前已经是很多年之前了。

4

应用场景和领域

正因为当前这套系统还处于开发阶段,因此前在的应用场景也非常广泛。首先能想到的就机器人、自动驾驶厂商用于环境训练,用于自我模拟训练。

游戏引擎商店

当然,这相技术真正令我兴奋的则是应用在游戏制作、电影制作以及VR领域。利用AI技术制作大量相似的人物或场景,让内容制作变得更轻松。

ZEPETO应用

甚至是当前火热的社交应用ZEPETO,我们可通过AI技术在游戏中创建出更逼真的卡通画的头像,甚至是动态的人物形象等。

甚至外媒也指出了另一点担心,未来可能会有一些通过AI技术制作的虚假的政治人物视频,用于虚假的传播。当然,技术本身并没有对错,这一点实际上是很难避免的。

Catanzaro则表示,通过这项技术创建出误导性的内容并不是新出现的问题,在此之前通过任何渲染手段都可以做到这一点。他认为,NVIDIA正在与合作伙伴联合研究检测虚拟AI成品的方法。最终发现,这是一个“信任问题”,并不能单单靠技术来解决。

(END)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181204A1I5DF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券