CVPR2018 ——(GAN)延时摄影视频的生成

计算机视觉研究院

发布于 2018-07-25 15:00:28

9150

CVPR2018即将开始，陆陆续续很多优秀的作品被大家知晓。今天我们来说说又去的科研成果，也希望阅读您对此感兴趣~

在户外拍摄一张照片之后，我们可以预测照片里面接下来发生的事情吗？比如，云彩会怎么移动？

今天我说的这个技术了不起了！其通过展示一个两阶段的生成对抗网来生成逼真的延时摄影视频对这个问题进行了回答。

给定第一帧图像，用提出的模型可预测未来的视频帧。在其两阶段模型里面，第一个阶段生成具有逼真内容的延时摄影视频；第二个阶段对第一个阶段的结果进行优化，主要体现在增加动态的运动信息，使之与真实的延时摄影视频更加接近。为了使最终生成的视频具有生动的运动信息，该技术还引入格拉姆矩阵来更加精确地描述运动信息。并且建立了一个大规模的延时摄影视频数据集，并且在这个数据集上面测试了其方法。通过使用该模型，可以生成分辨率为128x128，多达32帧的逼真的延时摄影视频。定性和定量实验都证明该方法相比已有最好模型的优越性。

接下来我们一起开始学习，详细对该技术进行剖析，使得该领域研究的小伙伴更加深刻，对未来的研究和创新打下基础~

通过现有模型的性能表明，在单个模型的同时生成具有真实内容的视频，不同帧间的生动的运动动力学是非常重要的。原因之一可能是单个模型的表示能力在满足可能相互矛盾的两个目标方面受到限制。为此，本次说的技术将视频生成的建模分为内容建模和运动建模，并提出了一种多阶段动态生成对抗性网络(MD-GAN)模型来生成真实的未来视频。第一阶段的目标是在给定输入帧的情况下，生成具有尽可能真实的内容细节的未来帧；第二阶段具体涉及运动建模，即使相邻帧之间的物体运动更加生动，同时保持内容逼真。

具体来说，则就是开发了一个名为Base-Net的生成性对抗性网络，在第一阶段生成内容。生成器和判别器都由三维卷积和反卷积组成，用于建模时空模式。这个阶段的对抗性损失鼓励生成器制作类似于真实发行的视频。为了保留更多的内容细节，在生成器中使用了类似3D U-Net的体系结构，而不是普通的编码器-解码器结构。跳过连接用于将编码器和解码器中的对应特征映射链接起来，以便解码器能够在编码器中重用特征，从而减少信息损失。

这样，该模型可以在未来的每一帧中生成更好的内容细节，这些细节在视觉上比普通的编码器-解码器结构(如“C. Vondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics”中的模型)所产生的内容更令人愉悦。

Base-Net可以生成包含具体细节的框架，但可能无法对帧间的运动转换进行建模。于是，为了生成具有生动运动的未来帧，第二阶段MD-GAN以第一阶段的输出作为输入，并与另一个生成的对抗性网络改进时间转换，同时保留现实的内容细节，我们称之为“Refine-Net”。提出了一种对抗性排名损失来训练这个网络，以鼓励生成的视频更接近真实的视频，同时更远离输入视频(从第一阶段)的运动。为此，引入Gram矩阵对连续帧间的动态变换进行建模。在下图中给出了一些由传统方法和该技术方法生成的示例帧。本次技术模型产生的图像帧比最先进的图像帧更清晰，并且在视觉上几乎和真实的图像帧一样逼真。

上图中，从上往下一次是： VGAN, RNN-GAN，本次技术的第一阶段和第二阶段示例帧结果。

本次还建立了一个大规模的延时视频数据集，称为天空场景，以评估模型的未来预测。该数据集包括白天、夜幕、星空和极光场景。MD-GAN在这个数据集上进行训练，并根据天空场景的静态图像预测未来的帧。我们可以制作128×128真实感视频，其分辨率远远高于最先进的模型。与以往只生成一帧的工作不同，该模型通过一次生成32帧，进一步防止了错误积累和信息丢失。

阶段I: Base-Net

如上图所示，Base-Net是由生成器G1和判别器D1组成的生成对抗网络。以图像x∈R 3×H×W为起始帧，复制T次，得到静态视频X∈R 3×TxH×W。通过三维卷积和三维反卷积层转发X，生成器G1输出T帧的视频Y1∈R 3×TxH×W，即Y1=G1(X)。

对于生成器G1，采用了一种编解码结构，这也适用于VGAN。然而，这种普通的编解码结构在产生良好的结果方面遇到了问题，因为来自编码器的特性可能没有被充分利用。因此，使用类似于3D U-Net的体系结构来代替，这样编码器中的特征就可以被充分利用来生成Y1。如上图所示，通过引入编码器和解码器的特征映射之间的skip连接来实现这种U-Net体系结构。skip连接在底层和顶层的特征之间建立信息“高速公路”，这样功能就可以被重用。这样，生成的视频更有可能包含丰富的内容细节，这似乎是一个简单的修改，但它在提高视频质量方面发挥了关键作用。

判别器D1然后以视频Y1和真实视频Y作为输入，并试图区分它们。x是Y的第一帧。D1与G1的编码器部分共享相同的结构，除了最后一层是具有Sigmoid激活函数的单个节点之外。

为了训练GAN-Based的模型，对Base-Net的对抗性损失定义为：

此外，在实验中观察到，在像素空间中直接结合对抗性损失和L1损失，使生成的视频与真实视频之间的距离最小化，可以获得令人满意的性能。因此，将content 损失定义为：

最后，第一阶段的Base-Net目标函数如下：

这种对抗性训练允许Base-Net制作包含真实内容细节的视频。然而，考虑到未来的不确定性，GAN的学习能力有限，单个GAN模型可能无法捕捉真实视频中正确的运动模式。因此，产生的视频的运动动力学可能不够现实。为了解决这个问题，在第二阶段通过另一种名为refine-net的GAN模型进一步处理了第一阶段的输出，以补偿其生动的运动动力学，并生成更真实的视频。

阶段II: Refine-Net

Refine-Net的生成器G2与Base-Net中的G1类似。在训练模型时，发现很难在使用skip连接来保持真实的内容细节的同时产生生动的运动。

换句话说，skip连接主要是内容生成的贡献，但对运动生成可能没有帮助。因此，从G2中删除了一些skip连接，如上图所示。Refine-Net的判别器D2也是一个具有3D卷积的CNN，与Base-Net中的D1具有相同的结构。采用对抗性训练来更新G2和D2。然而，天真地使用vanilla adversarial loss会导致身份映射，因为G2的输入Y1是G1的最佳结果，G1的结构与G2非常相似。只要G2学习身份映射，输出Y2就不会得到改善。

为了迫使网络学习有效的时间变换，提出了一种对抗性排名损失来驱动网络生成更接近真实视频的视频，同时又远离输入视频(从第一阶段开始的Y1)。排名损失被定义为Lrank(Y1；Y2；Y)，稍后将详细描述输入Y1、输出Y2和真相视频Y。要构建这样的排序损失，应该利用能够很好地表示帧间动态的有效特征。基于这种特征表示，可以方便地计算视频之间的距离。

使用Gram矩阵作为运动特征表示来帮助G2学习视频帧间的动态。给定输入视频，首先用判别器D2提取视频的特征。然后，利用这些特性计算出跨帧的Gram矩阵，从而合并丰富的时间信息。

为了充分利用视频表示，采用了[1]和[2]中引入的对比损失的一个变体来计算视频之间的距离。对l层特征的对抗性排名损失被定义为：

[1] E. Hoffer and N. Ailon. Deep metric learning using triplet network. In International Workshop on Similarity-Based Pattern Recognition, pages 84–92. Springer, 2015.

[2] X. Liang, H. Zhang, and E. P. Xing. Generative semantic manipulation with contrasting gan. arXiv preprint arXiv:1708.00315, 2017.

从判别器D2的多个卷积层中提取输入Y1、输出Y2和真实视频Y的特征，并分别计算它们的Gram矩阵。最后的对抗性排名损失是：

类似于第一阶段的目标，还结合像素方向的L1距离来捕捉低层次的细节。Refine-Net的总体目标是：

具体算法如下：

实验

总结

本次的技术主要提出了一种MD-GAN模型，它可以由粗到细的方式产生分辨率高达128×128的真实感延时视频。在第一阶段，模型通过Base-Net生成尖锐的内容细节和粗糙的运动动力学，以3D U-Net为生成器。在第二阶段，Refine-Net提高了运动质量，一个对抗性的排名损失，其中结合了格拉姆矩阵，给出有效地建模的运动模式。实验表明，模型比现有的最先进的模型有更好的性能，并且在许多情况下可以生成与真实世界的视频一样逼真的视频。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-05-19，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习