动态 | Google最新研究:让机器像人一样,“拍出”完美照片

AI科技评论按:Google的最新研究告诉我们,在摄影这种强主观判断的领域,机器也能像人一样审美,生成让摄影师都点赞的照片啦。具体是如何实现的,往下看吧!

AI科技评论将原文编译如下。

机器学习(ML)在许多目标明确的领域有优秀的表现。具有明确正误答案区分的任务将有助于训练,而且能让算法实现预设的目标,比如准确地从图像中识别物体,或者合理的将语言进行翻译。然而,也有许多领域的任务是很难客观评价的,在诸如评价一张照片美丽与否这种太主观的问题上时——这与每个人的审美有关,就不太适合用机器学习来解决了。

图:贾斯珀国家公园的一张专业摄影照

为了研究机器学习是如何学习主观概念的,Google针对艺术性的创作引入了一种试验性的深度学习系统。这个系统会模仿专业摄影师来展开工作。它的工作流程如下:从谷歌街景中浏览景观图,分析出最佳的构图,然后进行各种后期处理,从而创造出一幅赏心悦目的图像。

这位虚拟摄影师通过浏览阿尔卑斯山、加拿大的班夫及贾斯珀国家公园、加州Big Sur和黄石国家公园等地的4万张全景照片,创作了许多令人印象深刻的作品,其中一些甚至达到了专业水准——专业摄影师如此评价到。

训练模型 虽然照片中的美感可以用类似AVA系统(http://refbase.cvc.uab.es/files/MMP2012a.pdf)中的数据集来模拟,但是就这么直接的用AVA系统来处理照片,可能会在美感上有部分方面的缺失,比如做出的照片过饱和。再者,如果想通过监督学习适当地从多个方面来学习美感,所需的标签数据集会很难收集,所以这也不是一个好方法。

他们的方法只需要一些高质量的照片,不需要后期前后图像的对比或额外的标签。这个系统能自动将照片中的美感解析成不同方面,每一方面都能通过相反的图像操作产生的负面例子来单独学习。

通过使图像处理半正交化,可以找到快速和独立的最优化步骤,从构图、饱和度/HDR水平和明暗的张力上对图像进行美化:

图:图(a)是全景图,图(b)将图(a)进行裁切,图(c)是对图(b)进行饱和度和HDR优化处理,图(d)是应用戏剧张力蒙版之后的效果。

他们用传统的图像滤波器生成了包括饱和度、HDR细节和构图的负面例子,还引入了一种名为戏剧张力蒙版(dramatic mask)的特殊操作,它是在学习明暗张力概念的过程中一同产生的。

这些负面例子是这样生成的:应用一组图像滤波器,随机地调整高质量照片的亮度,将图片的质量变差。在训练中,他们使用生成对抗网络(GAN),在这种模式下,生成网络会创建一个蒙版来改善负面例子中的光线,判别网络则试图将光线改善后的照片与样本照片进行区分。

与vignette这样的固定形状滤波器(shape-fixed filter)不同,戏剧张力蒙版增加了内容感知亮度调节部分。GAN训练天然的竞争性极大地丰富了调节图像特性的能力,在论文中可以看到更多的训练细节。

结果

下面是这种系统基于Google街景的一些创作。如下图所示,经过训练后能够判断美感的滤波器创造出了一些让人惊叹的照片(包括文中最初出现的照片):

图:加拿大,贾斯珀国家公园

图:瑞士,茵特拉肯

图:意大利,Parco delle Orobie Bergamasche公园

图:加拿大,贾斯珀国家公园

专业评估 为了评价这个算法的效果如何,他们设计了一个类“图灵测试”实验:将这个系统创作出来的照片和其他不同质量的照片掺杂在一起,然后把它们展示给几个专业摄影师。他们要求这些摄影师为每张照片评分,分数是基于如下标准:

1分:傻瓜式拍照,照片没有考虑构图以及光线等因素。

2分:没有摄影基础的一般大众拍出来的照片,看起来还可以,但没有明显的艺术感。

3分:半专业。照片中展示出了明显的艺术感,摄影师正朝着专业摄影师迈进。

4分:专业。

在下面的图表中,曲线显示了专业摄影师为已经预估分数的图片打的分数。对于他们预估的高分图片,大约有40%收到了“半专业”或“专业”的评价。

未来的研究

街道全景图为这个项目提供了一个测试平台。有一天,这种技术甚至可以帮助我们现实世界中拍出更好看的照片。

论文地址: https://arxiv.org/abs/1707.03491

via:Google Research Blog,AI科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏GAN&CV

如何快速进阶AI的资源

本文译自:https://towardsdatascience.com/getting-started-with-reading-deep-learning-r...

682
来自专栏华章科技

生命的意义是什么? 谷歌机器人的答案:为了永生

据英国每日邮报报道,当英国剧作家道格拉斯•亚当斯(Douglas Adams)写《银河系漫游指南》时,他写道这样一句话:“有关生命、宇宙和万物的终极问题的答案是...

762
来自专栏企鹅号快讯

听说机器已经开始给人类歌手打分了,它能听懂人的歌声吗?

音乐类竞技节目层出不穷,台上你方唱罢我登场,台下专业评审和现场观众热情高涨:这句唱得好,加分!那句跑调了,减分!歌手唱哭了,满分!此时,如果有一个毫无感情色彩的...

2019
来自专栏大数据文摘

重磅译制 | 更新:MIT 6.S094自动驾驶课程第2讲(2)深度Q学习

1524
来自专栏PPV课数据科学社区

如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

编者按:这个问题放到更大的范围,也同样适用于回答“学习数据挖掘是否需要学好数学?”。作者从实践的几个方面给出了自己的理解,小遍认为还是比较好的回答了这个问题。 ...

3525
来自专栏量子位

谷歌大脑QT-Opt算法,机器人探囊取物成功率96%,Jeff Dean大赞

793
来自专栏大数据文摘

重磅译制 | 更新:MIT 6.S094自动驾驶课程第3讲(1)卷积神经网络

835
来自专栏数说工作室

深度学习祖师 Hinton 亲自授权 | 《神经网络》中文字幕版

Geoffrey Hinton,可能未必所有人都听过, 但他创立的门派——深度学习,却无人不知,点开本文的高傲的你,也许就是、或者即将成为,他的徒孙。 Geo...

34711
来自专栏机器学习算法全栈工程师

就怕你迷路!力荐!论文资源获取和AI论文阅读指导

本文译自:https://towardsdatascience.com/getting-started-with-reading-deep-learning-r...

973
来自专栏机器之心

学界 | CMU通过机器学习「读心术」解码大脑复杂思想

选自CMU 机器之心编译 参与:黄小天、Smith 近日,卡内基梅隆大学官网上发表了一篇题为《Beyond Bananas: CMU Scientists Ha...

3459

扫描关注云+社区