业界 | 谷歌「虚拟摄影师」：利用深度学习生成专业级摄影作品

机器之心

发布于 2018-05-09 15:08:07

9120

发布于 2018-05-09 15:08:07

文章被收录于专栏：机器之心

选自Google Research

机器之心编译

参与：Smith 黄小天

机器学习在目标清晰的客观领域取得了超乎想象的效果，比如图像识别和机器翻译；但在主观领域有时并不灵光，比如谷歌在本文中所探讨的摄影审美问题。对此，谷歌通过一个实验性深度学习系统，即其所谓的虚拟摄影师，浏览专业品质的图片集，生成了可与专业摄影师相媲美的「摄影作品」。机器之心对该文及其论文摘要进行了编译。

在很多领域，机器学习目标清晰，成效显著。机器学习训练受益于带有正确答案的任务，算法得以实现其既定目标，比如正确识别图像中的物体，或者两种语言之间的互译。然而，存在一些客观评估不适用的领域，比如，一张图像是否美观取决于其美学价值，这是一个高度主观的概念。

加拿大贾斯玻国家公园（Jasper National Park）的一张专业图片

为了对机器学习如何学习主观性概念进行探索，我们采用了一个用于艺术内容创作的实验性深度学习系统。它模仿一个专业摄影师的工作流程，从 Google Street View 中浏览全景图，搜索最佳图片，并进行多种后期处理，从而创作一张具有美学价值的图像。我们的「虚拟摄影师」浏览了~40,000 张全景图（多是在阿尔卑斯山、班芙、贾斯玻国家公园、大苏尔、黄石国家公园），并因此生成了令人印象深刻的创作，一些甚至达到了专业摄影师的水准。

训练模型

尽管可以使用 AVA 等数据集对美学进行建模，但是如果天真地使用它来提升照片品质也许会漏掉美学中的一些方面，比如造成图像过饱和。然而，如果通过有监督学习来恰当地学习美学的多个方面，也许需要一个标注的却难以收集的数据集。

我们的方法只依赖于专业品质的图片集，无需前后的图片对或者任何额外的标签。它自动地把美学分解为多个方面，每一个方面借助由成对的图像操作生成的消极实例（negative example）被单独习得。通过使这些图像操作保持「半正交」，我们可以利用快速、可分离的优化步骤来提升图像的构成、饱和度／HDR 水平以及高光。

一个全景图（a）被剪裁成（b），饱和度和 HDR 强度在（c）中得到提升，（d）中应用了戏剧蒙版（dramatic mask)。每一步都由美学一个被习得的方面来指导。

传统图像滤镜用于生成饱和度、HDR 细节和构图的消极训练实例。我们也采用了一种称作戏剧蒙版（dramatic mask）的特殊操作，它在学习戏剧性光线时联合创建而得。消极实例的生成是通过把图像滤镜的结合（可随机调节明暗度）应用于专业图片，降低其外观而实现的。

我们使用生成对抗网络来进行训练，生成模型创建了一个蒙版来对亮度进行修复，判别模型设法对增强型结果和真实结果进行区分。不同于形态固定的滤镜，比如 vignette，戏剧蒙版为照片添加了内容感知型的亮度调节（content-aware brightness adjustment）。GAN 的竞争本质导致了积极变化的产生。训练细节详见论文（http://arxiv.org/abs/1707.03491）。

结果

我们来自 Google Street View 的系统的创作被展示在下面。如你所见，已训练的美学滤镜的应用带来了一些戏剧性的结果（包括本文所使用的图像！）

加拿大贾斯玻国家公园

瑞士茵特拉肯

意大利 Parco delle Orobie Bergamasche 公园

加拿大贾斯玻国家公园

专业评估

为了判断我们的算法有多么成功，我们设计了一种像「图灵测试」的实验：即将我们生成的图片和其他不同质量的图片混合在一起，然后展示给其他几位专业摄影师。他们需要为每张图片的质量评分，其评分等级或依据主要如下：

1. 按下快门时没有考虑构图和光照等。

2. 大众图片中的好作品，但没有很好的背景和特别突出的艺术风格。

3. 半专业级，好照片展示了清晰的艺术风格。摄影师也正在摸索自己的风格。

4. 专业级。

在下图中，每一条曲线展示了专业摄影师在一定范围内对图片所做的评估分。我们生成的作品约有 40% 被评为半专业级到专业级之间。

专业摄影师对相片所做的不同评分和系统预测分。

未来研究方向

Google Street View 全景图可以作为我们项目的测试平台。也许以后这一技术甚至会帮助我们拍出更好的图片。我们编译了一个图片创造的展示平台，如果我们看到喜欢的图片，那么就可以点击它并查看附近的街景图片。那么我们就有可能在拍照的时候根据系统辅助做出相似的判断，并拍下好图片。

Creatism：一个可创作专业摄影作品的深度学习「摄影师」（Creatism: A deep-learning photographer capable of creating professional work）

论文地址：https://arxiv.org/abs/1707.03491

摘要：机器学习善于在很多目标定义明确的领域进行工作。然而，通常情况下，在像摄影这样的艺术形式中，明确目标是不可用的。摄影的质量是由它的美学价值来衡量的，这是一个非常主观的概念。这就增加了机器学习方法的挑战性。

我们引入了创造论（Creatism）方法，一个用于艺术概念创作的深度学习系统。在我们的系统中，我们把美学分解成了多个层面，每一个层面都可以在一个专有实例共享数据集中进行单独学习。每一个层面都对应一个可以被有效优化的图像运算。一个全新的编辑工具，dramatic mask，作为增强照片亮度的运算步骤被引入到系统当中。我们的训练在图像对（image pair）的前后并不需要一个数据集，也不需要其它额外的标注来对美学的不同层面进行指示。

我们使用我们的系统模仿了风光摄影师（landscape photographer）的工作流程，包括从给最佳成分进行取景构图到实施各种不同的后期处理工作。我们的虚拟摄影环境是由谷歌街景视图（Google Street View）采集的一批全景图像完成的。我们设计了一个类似于「图灵测试」的实验，来客观地衡量系统所创作作品的质量，而专业摄影师往往只能盲目地对来自不同来源的照片的混合体进行评估。实验表明，我们的机器所创作的作品中的一部分可与专业级作品相媲美。