Adobe 写实深度摄影风格迁移,局部仿射解决画面扭曲

【新智元导读】康奈尔大学和 Adobe 团队的这项图像风格迁移研究,解决了神经网络风格迁移中由于参考图像风格夸张而产生的的输出图像“扭曲”的问题,在各种场景下得到了非常逼真而且忠实的摄影风格迁移结果。或许我们可以期待用 Photoshop 实现风格迁移?

摘要

本论文介绍了一种利用深度学习实现摄影风格迁移的方法,能够处理各种类型的图像,同时忠实地迁移参考风格。我们的方法建立在最近的通过考虑神经网络的不同层使画面内容分离,从而实现艺术风格转换的研究之上。但是,这种方法不适用于摄影作品的风格迁移。即使输入的图像和参考的图像都是摄影作品,其输出仍然表现出怪异的绘画特征。我们的贡献是将输入到输出的转换约束在色彩空间的局部仿射,并将这种约束表示为可以反向传播的自定义 CNN 层。我们的结果表明,这种方法成功地抑制了画面的扭曲,并在各种场景中得到了令人满意的写实的摄影风格迁移,包括时间、天气、季节的改变和艺术性编辑。

挑战和贡献

从实践的角度看,我们的贡献是提出了适用于许多场景应用的有效实现摄影作品风格转换的算法,例如改变一天中的时间或照片上的天气,或将图像的艺术风格迁移到另一幅照片。

图1:给定的参考风格图像(a)和输入的图像(b),我们尝试创建与输入的图像相同的场景,但要使用参考图像的风格。神经风格算法得到的结果(c)成功地转换了颜色,但是同时引入了扭曲(distortion)的特征,这在摄影作品的风格迁移中是不希望的。相比之下,我们的结果(d)在保留输出的真实感的同时很好地奇异了参考分割图像的颜色。最右是(b),(c)和(d)的对比。

放大看看:

为了实现这一结果,我们必须解决两个根本性的挑战。一是结构保存(structure preservation),解决这一难题使我们实现了将摄影照片与绘画区分开来。第二个挑战是语义准确性和迁移忠实度(Semantic accuracy and transfer faithfulness)。现实世界中场景的复杂性提出了这一挑战,即迁移应该忠实于场景语义。例如,在城市风景照片中,建筑物的外观应该是建筑物,天空是天空,假如风格迁移之后天空看起来像建筑物是不可接受的。我们将输入图像和参考风格图像的语义标签纳入迁移过程,以便子区域之间的迁移得到语义上的等效,并且每个语义之间的映射接近均匀。我们的结果显示,该算法保留了所需风格的丰富性,并防止了外溢。如图2所示。

图2:给定输入图像(a)和参考风格图像(e)Gatys et al. 的结果(b) (神经风格)和 Li et al. 的结果(c)(CNNMRF)由于严重的扭曲而出现人造物。相比之下,我们的结果(d)防止了扭曲,并且正确匹配了纹理。

方法

我们的算法采用两张图像:一张是普通的摄影照片作为输入图像,另一张是参考的风格图像。我们的目的是将参考图像的风格迁移到输入的照片,同时保持输出的结果逼真。我们的方法引入了两个核心的想法,用以增强我们的神经风格算法(Neural Style algorithm):

  • 在优化过程中,我们在目标函数中提出一个摄影写实主义的正则化因子(regularization term),从而将重建的图像显示约束在输入的局部仿射颜色变换,以防止扭曲。
  • 根据输入的语义分割,我们为风格迁移引入了可选的指引(guidance),以回避内容不匹配的问题,从而大大提高了结果的逼真性。

实现细节请参见论文。

图3:将参考风格图像的夸张表现迁移到普通的风景照片是很久挑战性的,我们通过改变λ参数的值得到最佳结果。λ的值太小无法避免变形,从而导致(b)那样的没有真实感的景象,反之,λ的值太大会抑制样式的转移,如(d)那样得到半迁移的效果。(c)是我们得到的最佳结果。

结果和对比

图4:我们的方法与神经风格(Neural Style)方法和 CNNMRF 的对比:神经风格方法和 CNNMRF 生成的图像产生了很强的扭曲,因为神经风格方法完全忽略了风格迁移中的语义背景,而 CNNMRF 由于使用最近邻搜索,倾向于忽略参考风格图像中的大部分纹理。我们的方法得到的结果没有出现扭曲,而且纹理语义匹配。

图5:我们的方法与 Reinhard et al. 和 Pitié 的方法的对比。我们的方法在空间变化和颜色变化的转化方面更加灵活,产生的结果比前人研究的结果更好。

图6:我们的方法与 Shih et al. 的方法的对比。

图7:人工分割可以实现多种任务,例如将火球(b)迁移到香水瓶(a)以产生香水瓶被火焰照亮的外观(c);或改变不同苹果(d,e)的纹理。

图8:用户研究结果证实我们的算法产生了逼真且忠实的结果。

结论

本论文中,我们介绍了一种利用深度学习实现摄影风格迁移的方法,能够忠实地将风格从参考图像迁移到各种类型的图像。我们在自动以卷积网络层中使用 Matting Laplacian 来约束从输入到输出的转换,使其在色彩空间中局部仿射。语义风格方法进一步帮助我们在各种各样的场景中得到更多类型的风格迁移,如改变时间,天气,季节和进行艺术性编辑,都能获得令人满意的逼真风格的输出图像。

未来,我们将进一步探索用于语义上下文匹配的 neural patch 的自动对齐,以解决当前图像分割技术的局限性。基于预计算方法实现实时的风格迁移性能是另一个有前途的方向。

(注:本文所提的参考文献具体请参见原论文,论文下载地址:https://arxiv.org/pdf/1703.07511.pdf)

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

8492
来自专栏喔家ArchiSelf

全栈必备 贝叶斯方法

对一个全栈老码农而言,经常在开发或者研发管理的时候遇到各种预测、决策、推断、分类、检测、排序等诸多问题。面对“你的代码还有bug么?”这样的挑战,一种理智的回答...

1103
来自专栏PPV课数据科学社区

【V课堂】R语言十八讲(十七)—主成分分析

理解主成分分析这个模型前,可能需要一定的线性代数的知识,当然若没有基本也能看下去,只是可能比较困弄清楚,但这篇短文会尽可能给你的写得浅显易懂,不涉及太多公式推导...

2766
来自专栏AI派

【技术综述】你真的了解图像分类吗?

图像分类是计算机视觉中最基础的任务,基本上深度学习模型的发展史就是图像分类任务提升的发展历史,不过图像分类并不是那么简单,也没有被完全解决。

1701
来自专栏机器学习和数学

[编程经验] TensorFlow实现非线性支持向量机

上一次说的是线性支持向量机的原理和tf实现问题,把SVM的原理简单用公式推导了一下,SVM这块还有几个问题没有解释,比如经验风险,结构风险,VC维,松弛变量等。...

4797
来自专栏瓜大三哥

竞争型神经网络

自组织神经网络(self-Organization Mapping net,SOM)是基于无监督学习方法的神经网络的一种重要类型。自组织神经网络是神经网络最富有...

3635
来自专栏PPV课数据科学社区

常见面试之机器学习算法思想简单梳理

前言:   找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据...

3474
来自专栏AI科技评论

总结 | 优必选悉尼AI研究院何诗怡:基于课程学习的强化多标签图像分类算法

与单标签图像分类相比,多标签图像分类是一种更符合真实世界客观规律的方法,尤其在图像和视频的语义标注,基于内容的图像检索等领域有着广泛的应用。

1713
来自专栏奇点大数据

神经网络:问题与解决方案

尽管人工神经网络的概念从20世纪50年代就已经存在,但是直到最近我们才有能力将理论转化为实践。神经网络应该能够模仿任何连续的功能。但是,很多时候,我们都陷入了网...

3246
来自专栏用户2442861的专栏

深层学习为何要“Deep”(上)

http://blog.csdn.net/u010751535/article/details/52739803

2211

扫码关注云+社区

领取腾讯云代金券