整理自“机器之心”
近日,来自 DeepMind 的研究者则尝试在视频建模领域实现逼真的效果,他们认为除了图像生成,GAN 在视频生成上也是没啥问题的。类似 BigGAN 的思路,研究者在复杂的 Kinetics-600 数据集上训练一种大型生成对抗网络(GAN),并期待该网络生成的视频样本复杂度大大高于之前的研究。
DeepMind 提出的模型叫作 Dual Video Discriminator GAN (DVD-GAN),可以利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。该研究是迈向逼真视频生成的一次探索,连 Ian Goodfellow 也转推了这篇论文。
那么靠 GAN 生成的视频是怎样的,到底是高清画面的堆砌还是说也会包含一些连贯语义。在下面三个动图中,研究者展示了 DVD-GAN 生成不同分辨率视频的效果,它们都是在 Kinetics-600 训练后得到的结果。
DVD-GAN 在 12 帧 256 × 256 Kinetics-600 样本上训练得到的视频帧。
DVD-GAN 在 48 帧 128 × 128 Kinetics-600 样本上训练得到的视频帧。
看得出有些视频里发生了些什么,但想要真正理解却又有些困难。
DVD-GAN 在 12 帧 128 × 128 Kinetics-600 样本上训练得到的视频帧。
从整体上来说,DVD-GAN 能够生成一段连续的视频。但是还有很多问题:
不过,这已经是 GAN 目前能够做到的最好水平了。
DVD-GAN 能够生成高分辨率和具备时间一致性的视频。它将大型图像生成模型 BigGAN 扩展到视频领域,同时使用多项技术加速训练。与之前的研究不同,该模型的生成器不包含前景、背景或光流的显式先验信息,而是依赖于大容量的神经网络,以数据驱动的方式学习这些信息。DVD-GAN 包含自注意力和 RNN,但是它在时间或空间中并不具备自回归属性。RNN 按顺序为每个视频帧生成特征,然后 ResNet 并行地输出所有帧,联合生成每一帧中的所有像素。也就是说,每一帧中的像素并不直接依赖于视频中的其他像素,这与自回归模型并不相同。
DVD-GAN 模型架构如下图所示:
图 3:DVD-GAN 模型架构图示。左图为生成器,右图为判别器(D_S/D_T)。
DVD-GAN 使用两个判别器:空间判别器(Spatial Discriminator:D_S)和时间判别器(Temporal Discriminator:D_T)。
本文分享自 机器学习算法与Python学习 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!