用AI让静图变动图:CVPR热文提出动态纹理合成新方法

选自arXiv

作者:Matthew Tesfaldet等

机器之心编译

参与:路、李泽南

图画总是只能表现事物瞬间的形象,而动画则需要逐帧手绘,费时费力,人工智能是否能够帮助我们解决这一困难?近日,来自加拿大约克大学、Ryerson 大学的研究者们提出了使用「双流卷积神经网络」的动画生成方法,其参考了人类感知动态纹理画面的双路径模式。该动画生成模型可以参考相关视频,让一张静态图片变成效果逼真的动画。目前,该研究的论文已被 CVPR 2018 大会接收,相关代码也已公开。

项目展示页:https://ryersonvisionlab.github.io/two-stream-projpage/

动画生成效果展示

很多常见的时序视觉模式使用组成元素的外观和动态(即时序模式变化)的集合进行描述。此类模式包括火、摇曳的树木和波浪起伏的水。长期以来,理解和特征化这些时序模式是人类感知、计算机视觉和计算机制图领域感兴趣的问题。之前的研究给这些模式起了很多名字,如涡流运动(turbulent-flow motion)[17]、时序纹理(temporal texture)[30]、时变纹理(time-varying texture)[3]、动态纹理 [8]、纹理运动(textured motion)[45] 和时空纹理(spacetime texture)[7]。本论文作者使用「动态纹理」(dynamic texture)。该研究提出从外观和时序动态的角度对动态纹理进行因子分析。然后使用因子分解结果完成基于示例纹理输入的动态纹理合成,从而生成新型动态纹理实例。它还产生了一种新型风格迁移形式,目标外观和动态可来自不同来源,如图 1 所示。

图 1:动态纹理合成。(左)给出一个输入动态纹理作为目标,本文提出的双流模型能够合成一个新的动态纹理,保留目标的外观和动态特征。(右)双流模型使合成结合一个目标的纹理外观和另一个目标的动态,从而产生二者的合成品。

本研究提出的模型由两个卷积网络(ConvNet)构成——外观流和动态流,二者分别经过预训练,用于目标识别和光流预测。与空间纹理研究 [13, 19, 33] 类似,本文根据每一个流的滤波器输出的时空数据集,总结输入动态纹理。外观流建模输入纹理每一帧的外观,动态流建模时序动态。合成过程包括优化随机初始化的噪声模式,以使每个流的时空数据与输入纹理的时空数据相匹配。该架构受到人类感知和神经科学的启发。具体来说,心理物理学研究 [6] 显示人类能够感知动态纹理的结构,即使是在没有外观提示的情况下,这表明两个流是独立的。类似地,双流假设 [16] 从两个路径建模人类视觉皮层:腹侧流(负责目标识别)和背侧流(负责运动处理)。

本文提出的对动态纹理的双流分析也被应用于纹理合成。研究者考虑了大量动态纹理,并展示了其方法能够生成新型高质量样本,匹配输入样本的逐帧外观和时序变化。此外,外观和动态的因子分解还产生了一种新型的风格迁移形式,一个纹理的动态可以与另一个纹理的外观结合起来。我们甚至可以使用单个图像作为外观目标来完成该操作,使静态图像变成动画。最后,研究者通过大量用户调研验证了其生成纹理的逼真程度。

技术方法

本文提出的双流方法包括外观流(表示每一帧的静态(纹理)外观)和动态流(表示帧与帧之间的时序变化)。每个流包括一个卷积神经网络,其激活数据被用于特征花动态纹理。合成动态纹理是一个目标为匹配激活数据的优化问题。本文提出的动态纹理合成方法见图 2。

图 2:双流动态纹理生成。Gram 矩阵集表示纹理的外观和动态。匹配这些数据才能实现新纹理的生成和纹理之间的风格迁移。

图 3:动态流卷积神经网络。该 ConvNet 基于面向时空的能量模型 [7,39],同时经过光流预测的训练。图中显示了三个扩展(scale),实践中研究者使用了五个扩展。

实验结果

(动态)纹理合成的目标是让计算机生成人类观察者无法区分是否为真实图像的样本。该研究同时也展示了各种合成结果,以及大量用户调研,以定量评估新模型生成图像的逼真程度。由于生成图像随时间变化的特性,本研究的结果多为视频展示。研究人员表示,该双流架构是由 TensorFlow 实现的,并使用 NVIDIA Titan X(Pascal)GPU 生成结果,图像合成的时间介于 1-3 小时之间,每次生成 12 帧,图像分辨率为 256×256。

论文:Two-Stream Convolutional Networks for Dynamic Texture Synthesis

论文链接:https://arxiv.org/abs/1706.06982

摘要:本论文提出了一个用于动态纹理合成的双流模型。我们的模型基于两个预训练的卷积神经网络(ConvNet),分别针对两个独立任务:目标识别、光流预测。给定一个输入动态纹理,来自目标识别卷积神经网络的滤波器响应数据压缩输入纹理每一帧的外观,而来自光流卷积神经网络的数据会对输入纹理的动态进行建模。为了生成全新的纹理,随机初始化输入序列经过优化后,用于匹配输入纹理的数据与每个流的特征数据。受到近期关于图像风格迁移的启发,同时受益于本文提出的双流模型,我们还尝试合成一种纹理的外观与另一种纹理的动态,以生成全新的动态纹理。实验表明,我们提出的方法可以生成全新的、高质量样本,可匹配输入纹理的逐帧外观及其随时间的变化。最后,我们通过深入的用户研究,对新的纹理合成方法进行量化评估。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

8802
来自专栏机器之心

入门 | 神经网络训练中,Epoch、Batch Size和迭代傻傻分不清?

选自Medium 机器之心编译 参与:刘晓坤 你肯定经历过这样的时刻,看着电脑屏幕抓着头,困惑着:「为什么我会在代码中使用这三个术语,它们有什么区别吗?」因为它...

39911
来自专栏人工智能头条

深度学习性能提升的诀窍

2446
来自专栏目标检测和深度学习

学界 | DeepMind论文:CNN的变形稳定性和池化无关,滤波器平滑度才是关键

1021
来自专栏量子位

一文看懂自动驾驶中应用的机器学习算法

安妮 唐旭 编译自 KDnuggets 量子位出品 | 公众号 QbitAI 机器学习算法已经被广泛应用于自动驾驶各种解决方案,电控单元中的传感器数据处理大大提...

3447
来自专栏用户画像

熵 条件熵 信息增益

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。

1752
来自专栏喔家ArchiSelf

全栈必备 贝叶斯方法

对一个全栈老码农而言,经常在开发或者研发管理的时候遇到各种预测、决策、推断、分类、检测、排序等诸多问题。面对“你的代码还有bug么?”这样的挑战,一种理智的回答...

1103
来自专栏人工智能头条

王晓刚:图像识别中的深度学习

3032
来自专栏专知

【重温经典】吴恩达机器学习课程学习笔记三:监督学习模型以及代价函数的介绍

【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专...

3628
来自专栏决胜机器学习

神经网络和深度学习(一) ——深度学习概述

神经网络和深度学习(一)——深度学习概述 (原创内容,转载请注明来源,谢谢) 一、监督学习与神经网络 监督学习可以在一些地方应用,包括房价预测、广告精准定位...

3636

扫码关注云+社区

领取腾讯云代金券