朋友见过蒙娜丽莎版的阿凡达吗?

AI科技评论按:图像风格迁移一直都是一个十分有趣的研究方向,很多图像迁移工作都备受关注,比如颜色迁移,纹理迁移和风格转换。在图片分享类社交媒体的加持下,这些工作对群众的吸引力尤为明显。一些很流行的 APP 比如 Prisma 和 Facetune 就成功的利用了这种吸引力。浙江大学和中国香港科技大学的双料博士廖菁在 reddit 上分享过一篇关于风格迁移的论文,引起热烈讨论,原贴来自reddit,论文 https://arxiv.org/abs/1705.01088,代码https://github.com/msracver/Deep-Image-Analogy 。 AI 科技评论对论文及原贴编译如下。

论文简介

廖菁博士团队提出了一种名为深度图像对比的新图像风格迁移技术,经该技术迁移后的图片可能变成风格迥异的另一张图片,但其实它们拥有相同的语义结构。通过这种风格迁移技术,他们可以将颜色、色调、纹理、样式等视觉信息从一张图片迁移到另一张图片。举例说明,比如对同一场景的记录,可以通过绘画或素描,也可以通过拍照,这两种风格之间可以进行迁移。他们的技术可以发现两张图片语义上的稠密对应,实现方式是将「图片对比」与用于匹配的深度卷积神经网络所提取的特征进行融合,他们将该技术称为深度图片对比。他们采用由粗到细的策略来计算出最近邻场。他们还证明了他们所提技术的广泛适用性,比如风格-纹理迁移,颜色-风格互换,草图绘画-照片迁移等。

如上图所示,所谓语义结构相同其实是指两张图具有相似的可识别的高级视觉元素,而廖菁博士团队提出的技术可以在两张图片的视觉元素之间建立起稠密对应,这也就为风格迁移提供了基础。而这种稠密对应所用到的理念是「图片对比」(可以对图片的不同区域进行稠密映射)。在计算最近邻场方面,他们则是拓展了 PatchMatch 算法,对其进行重构使它可以应用到特征领域。最终的效果如上图所示,A 及 B'相似,但风格有明显差异,最终 B'的风格迁移至 A 生成 A',而 A 的风格迁移至 B'生成 B。

总结起来该方法大致涉及三项工作。一是视觉属性迁移,这一方向已经有不少工作,包括颜色迁移、纹理迁移。风格迁移,图片对比。但是这些工作的应用场景是特定的,而廖菁博士团队的则更加泛化。二是稠密对应,发现两幅图像之间的稠密对应是计算机视觉和图形学中的一个基础性问题。初始匹配方法被设计用于立体匹配、光流和图像对准。这些方法可以计算密集的对应场,但是它们假定亮度的一致性和局部运动,并且可能很难处理遮挡问题。三是神经风格迁移,他们使用的匹配算法利用的是深度卷积神经网络生成的深度特征,这些深度特征在一些高级识别任务中证明了它们可以更好地代表图片。DeepDream 最近尝试过用 CNN 生成一些艺术性工作。这对神经风格转换具有启发作用,近期也有人成功将 CNN(预训练的 VGG-16)应用于风格迁移和纹理迁移。

结果展示

廖菁博士团队在各个转换方式上的实验结果部分展示如下:

照片转图片

图片互转

图片转照片

照片间迁移

Reddit 讨论

该贴在 reddit 上引起热烈讨论,AI 科技评论挑选出部分网友提问及观点:

DOZENS_OF_BUTTS:这种图片风格迁移很 cool,有没有更多的样例。

e_walker:有,附上链接:https://liaojing.github.io/html/data/analogy_supplemental.pdf

已注销:请问这个和 cycleGAN 有什么区别?

tdgros:该技术只涉及神经网络,因为他们只使用预训练的 VGG19 特征作为基础。在每个尺度上均用 NNFS 以多分辨率的方式重建图像。因此该技术并不是在随机图片上训练及使用的。

CycleGAN 是一个类似于 PixToPix 的 GAN,它在变换时要保持「双向」一致性,因此它是在特定数据集上训练并用来完成特定任务的。

jonny_wonny:什么时候可以进行动作与动画转换?

madebyollin:他们在补充材料里已经提到了,暂时没办法搞定动画版本,因为该模型是对内容进行几何精确匹配。故你需要通过多种语义分割来增强系统以识别语义有联系的区域,且这些区域可能存在缩放的情况(可能输入片段就存在旋转、缩放的问题)。

已注销:如果可以一帧一帧处理的话,那么可以考虑用到视频上。你可能还需要对某些点进行优化,但是应该很快就能搞出一个低劣版,只不过低劣版生成的视频可能需要很长的渲染时间。

不过这个操作真心骚,想想我们很快就能看到动画版的宋飞正传,而且可以是皮克斯风格,West Anderson 风格,蒂姆波顿风格,瑞克和莫蒂风格,探险时关风格,泥塑动画风格等所有你能想到的风格,碉堡。

Boba-Black-Sheep(回复楼上):这个难度还是很大的,因为要保持帧间连续性。

Noncomment(回复楼上):这个工作有很多值得注意的地方,比如背景与前景异常融合,移动物体对于背景的遮挡,完全解决这些问题只能依靠NNs更好地理解 3D 几何结构。

hristo_rv:请问什么时候能上移动设备?

e_walker:我们正在考虑怎么让它变得更加高效。目前有两个瓶颈:用于 NNF 搜索的深度片段匹配以及去卷积。前者可以利用一些现有的 NNF 搜索优化器解决(例如,通过量化减少特征信道)。后者可以考虑穷举去卷积优化的替代方法。现在还有很多工作要做。

已注销:请问与以往相关工作有什么不同?

e_walker:主要有两个区别:一是之前的方法主要考虑全局统计匹配(如使用 Adam 矩阵),但该方法更多的是考虑局部语义匹配(如眼与眼进行匹配)。二是该方法更加泛化,主要有四个应用方向:照片转其他风格,其他风格间互转,其他风格转照片,照片转照片。

已注销:我想问你是怎么处理头发这种细节的?

e_walker:这些高频细节在 VGG 的精细尺度层中具有高特征响应,如 Relu2_1,Relu1_1 上。由于我们的方法是基于多级匹配和重构,不同频率的信息将逐级恢复。

rasen58:我觉得这个之前的风格迁移区别在哪?

e_walker:语义对应的局部风格迁移一直是一个比较困难的问题。该方法需要准确的找到不同风格的图片之间的局部对应关系,比如脸对脸,树对树。并且我们的方法不仅可以进行分割迁移,还能进行色彩迁移,分割切换,图片照片转换等。

廖静博士团队提出的这项技术将「图像类比」的概念应用到深层特征空间中去寻找语义上有意义的稠密对应。该方法优于以前的方法,且该方法适用性更广。他们认为该方法对于计算机图像学和计算机视觉中那些依赖于语义对应的工作很有帮助。

以上就是 AI 科技评论reddit原贴的解读。

想知道关于计算机视觉的更多知识?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180804A1CMVD00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券