业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品

选自Google Research

机器之心编译

参与:Smith 黄小天

机器学习在目标清晰的客观领域取得了超乎想象的效果,比如图像识别和机器翻译;但在主观领域有时并不灵光,比如谷歌在本文中所探讨的摄影审美问题。对此,谷歌通过一个实验性深度学习系统,即其所谓的虚拟摄影师,浏览专业品质的图片集,生成了可与专业摄影师相媲美的「摄影作品」。机器之心对该文及其论文摘要进行了编译。

在很多领域,机器学习目标清晰,成效显著。机器学习训练受益于带有正确答案的任务,算法得以实现其既定目标,比如正确识别图像中的物体,或者两种语言之间的互译。然而,存在一些客观评估不适用的领域,比如,一张图像是否美观取决于其美学价值,这是一个高度主观的概念。

加拿大贾斯玻国家公园(Jasper National Park)的一张专业图片

为了对机器学习如何学习主观性概念进行探索,我们采用了一个用于艺术内容创作的实验性深度学习系统。它模仿一个专业摄影师的工作流程,从 Google Street View 中浏览全景图,搜索最佳图片,并进行多种后期处理,从而创作一张具有美学价值的图像。我们的「虚拟摄影师」浏览了~40,000 张全景图(多是在阿尔卑斯山、班芙、贾斯玻国家公园、大苏尔、黄石国家公园),并因此生成了令人印象深刻的创作,一些甚至达到了专业摄影师的水准。

训练模型

尽管可以使用 AVA 等数据集对美学进行建模,但是如果天真地使用它来提升照片品质也许会漏掉美学中的一些方面,比如造成图像过饱和。然而,如果通过有监督学习来恰当地学习美学的多个方面,也许需要一个标注的却难以收集的数据集。

我们的方法只依赖于专业品质的图片集,无需前后的图片对或者任何额外的标签。它自动地把美学分解为多个方面,每一个方面借助由成对的图像操作生成的消极实例(negative example)被单独习得。通过使这些图像操作保持「半正交」,我们可以利用快速、可分离的优化步骤来提升图像的构成、饱和度/HDR 水平以及高光。

一个全景图(a)被剪裁成(b),饱和度和 HDR 强度在(c)中得到提升,(d)中应用了戏剧蒙版(dramatic mask)。每一步都由美学一个被习得的方面来指导。

传统图像滤镜用于生成饱和度、HDR 细节和构图的消极训练实例。我们也采用了一种称作戏剧蒙版(dramatic mask)的特殊操作,它在学习戏剧性光线时联合创建而得。消极实例的生成是通过把图像滤镜的结合(可随机调节明暗度)应用于专业图片,降低其外观而实现的。

我们使用生成对抗网络来进行训练,生成模型创建了一个蒙版来对亮度进行修复,判别模型设法对增强型结果和真实结果进行区分。不同于形态固定的滤镜,比如 vignette,戏剧蒙版为照片添加了内容感知型的亮度调节(content-aware brightness adjustment)。GAN 的竞争本质导致了积极变化的产生。训练细节详见论文(http://arxiv.org/abs/1707.03491)。

结果

我们来自 Google Street View 的系统的创作被展示在下面。如你所见,已训练的美学滤镜的应用带来了一些戏剧性的结果(包括本文所使用的图像!)

加拿大贾斯玻国家公园

瑞士茵特拉肯

意大利 Parco delle Orobie Bergamasche 公园

加拿大贾斯玻国家公园

专业评估

为了判断我们的算法有多么成功,我们设计了一种像「图灵测试」的实验:即将我们生成的图片和其他不同质量的图片混合在一起,然后展示给其他几位专业摄影师。他们需要为每张图片的质量评分,其评分等级或依据主要如下:

1. 按下快门时没有考虑构图和光照等。

2. 大众图片中的好作品,但没有很好的背景和特别突出的艺术风格。

3. 半专业级,好照片展示了清晰的艺术风格。摄影师也正在摸索自己的风格。

4. 专业级。

在下图中,每一条曲线展示了专业摄影师在一定范围内对图片所做的评估分。我们生成的作品约有 40% 被评为半专业级到专业级之间。

专业摄影师对相片所做的不同评分和系统预测分。

未来研究方向

Google Street View 全景图可以作为我们项目的测试平台。也许以后这一技术甚至会帮助我们拍出更好的图片。我们编译了一个图片创造的展示平台,如果我们看到喜欢的图片,那么就可以点击它并查看附近的街景图片。那么我们就有可能在拍照的时候根据系统辅助做出相似的判断,并拍下好图片。

Creatism:一个可创作专业摄影作品的深度学习「摄影师」(Creatism: A deep-learning photographer capable of creating professional work)

论文地址:https://arxiv.org/abs/1707.03491

摘要:机器学习善于在很多目标定义明确的领域进行工作。然而,通常情况下,在像摄影这样的艺术形式中,明确目标是不可用的。摄影的质量是由它的美学价值来衡量的,这是一个非常主观的概念。这就增加了机器学习方法的挑战性。

我们引入了创造论(Creatism)方法,一个用于艺术概念创作的深度学习系统。在我们的系统中,我们把美学分解成了多个层面,每一个层面都可以在一个专有实例共享数据集中进行单独学习。每一个层面都对应一个可以被有效优化的图像运算。一个全新的编辑工具,dramatic mask,作为增强照片亮度的运算步骤被引入到系统当中。我们的训练在图像对(image pair)的前后并不需要一个数据集,也不需要其它额外的标注来对美学的不同层面进行指示。

我们使用我们的系统模仿了风光摄影师(landscape photographer)的工作流程,包括从给最佳成分进行取景构图到实施各种不同的后期处理工作。我们的虚拟摄影环境是由谷歌街景视图(Google Street View)采集的一批全景图像完成的。我们设计了一个类似于「图灵测试」的实验,来客观地衡量系统所创作作品的质量,而专业摄影师往往只能盲目地对来自不同来源的照片的混合体进行评估。实验表明,我们的机器所创作的作品中的一部分可与专业级作品相媲美。

原文链接:https://research.googleblog.com/2017/07/using-deep-learning-to-create.html

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-07-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

程序员为什么要学深度学习?

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发,让大家观察一下深度学习对程序员意味着什么,以及我们如何利用这样一个高速发展的学科,来帮助程序...

1091
来自专栏测试开发架构之路

艾宾浩斯记忆曲线

一、 复习点的确定(根据艾宾浩斯记忆曲线制定): 1. 第一个记忆周期:5分钟 2. 第二个记忆周期:30分钟 3. 第三个记忆周期:12小时 4. 第四个记忆...

41011
来自专栏程序人生 阅读快乐

神经网络原理

Simon Haykin 于1953年获得英国伯明翰大学博士学位,目前为加拿大McMaster大学电子与计算机工程系教授、通信研究实验室主任。他是国际电子电气工...

981
来自专栏AI研习社

上交大卢策吾团队 AlphaPose 更新,顶级性能的实时姿态估计

AlphaPose 是一个多人姿态估计系统,具有极高的精准度。据卢策吾团队介绍, AlphaPose 在姿态估计(Pose Estimation)标准测试集 M...

1954
来自专栏数据派THU

独家 | 人工智能技术在医学领域的应用与前景(附PPT)

[导读]2017年6月20日,零氪科技首席架构师王晓哲,在清华大学“天池医疗AI大赛”第一季肺部结节智能诊断 《医学影像在肿瘤诊疗中的应用及智能诊断探索》发表演...

8417
来自专栏计算机视觉战队

2018年最全干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

1673
来自专栏大数据文摘

牛!谷歌向量空间法:图片译成文字

3668
来自专栏量子位

卸载美图秀秀吧,谷歌和MIT用机器学习帮你在拍照前修图

安妮 编译自 The Verge 量子位出品 | 公众号 QbitAI 你去票圈发照片的时候肯定也先修修图。少则几秒加个滤镜,多则数十分钟精修一下美美颜。 以后...

3516
来自专栏量子位

斯坦福公布3D街景数据集:2500万张图像,8个城市模型 | 下载

安妮 编译整理 量子位 出品 | 公众号 QbitAI 近日,斯坦福大学的研究人员公布了一个数据集,其中包含带有相机姿态的街景数据、8个城市的3D模型和拓展的元...

4124
来自专栏CVer

大牛分享 | 李航教授展望自然语言对话领域:现状与未来

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载

1320

扫码关注云+社区

领取腾讯云代金券