真实到可怕!英伟达MIT造出马良的神笔

问耕 郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

记得神笔马良的故事么?

拿到神笔的马良,可以画物品、画动物、画食物,而且,这些画作都可以一秒钟从画面上出来,变成真实世界中存在的东西。

虽然这只是一个童话故事,不过,英伟达和MIT联手的最新研究,基本上马良的“神笔”造了个八九不离十。

来自英伟达和MIT的研究团队,最近搞出了迄今最强的高清视频生成AI。这个团队,包括来自英伟达的Ting-Chun Wang、刘明宇(Ming-Yu Liu),以及来自MIT的朱俊彦(Jun-Yan Zhu)等。

他们的成果到底有多强、多可怕?一起来看。

只要一幅动态的语义地图,你就可以获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,不用去实拍,电影级的视频就可以自动P出来,像下面一样:

这可不是在播放录像,街景中的道路、车辆、建筑、绿植都是自动生成的。原本只是简单勾勒景物轮廓的语义分割图,摇身一变就成了真实的街景。

真实的有点过分。

而且,还可以生成各种不同风格的视频:

甚至,它还能把街景改掉。比如把道路两侧的建筑全都变成树木,顿时有一种行驶在森林公园的感觉:

或者把行道树也给变成建筑,不过这些建筑倒是看起来有年头了:

随意的生成变化,就像偷来了哈利·波特的魔杖,无需咒语,就可以把这个场景中所有的元素变变变。

还有厉害的。

通过一个简单的素描草图,就能生成细节丰富、动作流畅的高清人脸:

根据勾勒出的人脸轮廓,系统自动生成了一张张正在说话的脸,脸型、面部五官、发型、首饰都可以生成。

甚至还主动承担了给人脸绘制背景的任务。

除此之外,人脸的面色、发色也可以定制化选择,皮肤或深或浅,发色或黑或白,全都自然生成无压力:

面色红润style
一脸苍白style
脸色蜡黄style

简直就像同一个人染了头发拍了三遍,这种逼真的效果,真怕有一天朋友圈三无化妆品微商们拿去造假骗人。(当然,仔细看眉毛,还是有一些破绽)

不只人脸,整个身子都能搞定:

随着左侧人体模型的跳动、位移和肢体不断变换,右侧的真人视频中,主角也在随之舞蹈,无论你想要什么样的姿势,变高、变矮、变胖、变瘦,只要把左侧的人体模型调整一下,右侧的真人视频就会乖乖的听你调教。

与之前的研究相比,英伟达这个vid2vid的效果怎么样,大家一看便知。

这是2017年ICCV上的COVST的效果:

这是2018年CVPR上的pix2pixHD的效果:

而最新的效果是这样:

没有模糊,没有扭曲,没有异常的闪动,画面平稳流畅,色调柔和。如果应用在视频生产中,简直可以让抠图小鲜肉们一年拍10000部电影都不成问题。

最后,清晰的效果欢迎大家点开视频查看:

视频内容

技术细节

这么NB的效果,是怎么实现的?

说下要点。

研究团队使用了序列生成器和多尺度鉴别器来训练神经网络。生成器接收输入映射和前序帧,然后生成中间帧和Flow map。Flow map用于处理前序帧,然后与中间帧合并,从而生成最终帧。

生成下一帧时,最终帧变成输入,以此类推。

鉴别器共有两种,一种处理图片,一种处理视频。

图片鉴别器同时获取输入图像和输出图像,并从多个特征尺度进行评估,这与pix2pixHD类似。视频鉴别器接收Flow maps以及相邻帧以确保时间一致性。

所有帧在进入鉴别器之前,还进行了下采样,这可以看做是时域中的多尺度。

训练从低分辨率开始,然后结合低分辨率特征进行高分辨率的训练。同样,训练先从几帧开始,然后逐渐增加训练帧的数量。这两个步骤不断交替,形成渐进式的训练流程,最终让神经网络学会生成高分辨率和长时间的视频。

更多细节,可以从Paper中查看。

论文中表示,这是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。

这种新方法训练出来的模型,能够生成长达30秒的2K分辨率街景视频,显著提升了视频合成的技术水平,而且这个方法还能用来预测未来的视频发展。

论文传送门:

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

代码

好消息是,相关代码也已经在GitHub上公布。

而且研究团队给出了详细的训练指南,可以算是手把手教你如何自己训练出一个类似的强大神经网络。

包括用8个GPU怎么训练,用1个GPU又该怎么设置等等。

你所需要准备的是,一个Linux或者macOS系统,Python 3,以及英伟达GPU+CUDA cuDNN。

GitHub页面传送门:

https://github.com/NVIDIA/vid2vid

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-08-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

Richard S. Sutton经典图书:《强化学习导论》第二版(附PDF下载)

【导读】Richard S. Sutton就职于iCORE大学计算机科学系,是强化学习领域的专家,其在强化学习领域的著作“Reinforcement Learn...

1.3K100
来自专栏PPV课数据科学社区

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原...

30170
来自专栏数据科学与人工智能

【陆勤笔记】《深入浅出统计学》1信息图形化:第一印象

在为手头数据无法给出事情真相和发愁吗?作为一名数据工作者,总会有这种问题浮在心头。手头的数据,大部分时候是原始数据集,准确地说,应该是基于目的驱动所采集过来的原...

24870
来自专栏ATYUN订阅号

给定卫星图像,通过机器学习即可创建地面图像

达芬奇曾创作的绘画展示了意大利某些地区的鸟瞰图,其细节水平在摄影和飞行机器发明之前是不可能实现的。实际上,许多评论家都想知道他如何想象这些细节。但现在研究人员正...

8130
来自专栏AI科技大本营的专栏

22岁复旦大学生拿下深度学习挑战赛冠军:明明可以靠脸吃饭,却偏偏要靠才华

复旦大学Hengduo Li 编译 | AI科技大本营 参与 | 尚岩奇、周翔 近日,人工智能行车记录仪应用公司 Nexar 公布了第二届挑战赛的结果,其中,来...

35580
来自专栏TomZheng的专栏

《 NEXT 技术快报》:图形篇 (下)

每年暑期都是各路顶会扎堆,今年也不例外,SIGGRAPH,CVPR,ICML这三个我们一直关注的领域顶会相继召开,本期“NEXT技术快报”将重点关注这三大顶会的...

31200
来自专栏数据魔术师

干货 | 用模拟退火(SA, Simulated Annealing)算法解决旅行商问题

前 排 最近这个春节又快到了,虽然说什么有钱没钱回家过年。但也有部分小伙伴早已经备好了盘缠和干粮,准备在这个难得的假期来一场说走就走的旅行了。毕竟世界这么大我想...

1K80
来自专栏新智元

重磅 | 经典教材 R. Sutton《增强学习导论》最新版(451PDF)

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

55370
来自专栏数据派THU

独家 | 一文读懂复杂网络(应用、模型和研究历史)

前言 随着近几年关于复杂网络(Complex network)理论及其应用研究的不断深入,已有大量关于复杂网络的文章发表在Science,ature,RL,NA...

1.2K50
来自专栏Vamei实验室

信号与频谱

信号(singal)简介 我们在生活中经常遇到信号。比如说,股票的走势图,心跳的脉冲图等等。在通信领域,无论是的GPS、手机语音、收音机、互联网通信,我们发送和...

23390

扫码关注云+社区

领取腾讯云代金券