动态 | Google最新研究:让机器像人一样,“拍出”完美照片

AI科技评论按:Google的最新研究告诉我们,在摄影这种强主观判断的领域,机器也能像人一样审美,生成让摄影师都点赞的照片啦。具体是如何实现的,往下看吧!

AI科技评论将原文编译如下。

机器学习(ML)在许多目标明确的领域有优秀的表现。具有明确正误答案区分的任务将有助于训练,而且能让算法实现预设的目标,比如准确地从图像中识别物体,或者合理的将语言进行翻译。然而,也有许多领域的任务是很难客观评价的,在诸如评价一张照片美丽与否这种太主观的问题上时——这与每个人的审美有关,就不太适合用机器学习来解决了。

图:贾斯珀国家公园的一张专业摄影照

为了研究机器学习是如何学习主观概念的,Google针对艺术性的创作引入了一种试验性的深度学习系统。这个系统会模仿专业摄影师来展开工作。它的工作流程如下:从谷歌街景中浏览景观图,分析出最佳的构图,然后进行各种后期处理,从而创造出一幅赏心悦目的图像。

这位虚拟摄影师通过浏览阿尔卑斯山、加拿大的班夫及贾斯珀国家公园、加州Big Sur和黄石国家公园等地的4万张全景照片,创作了许多令人印象深刻的作品,其中一些甚至达到了专业水准——专业摄影师如此评价到。

训练模型 虽然照片中的美感可以用类似AVA系统(http://refbase.cvc.uab.es/files/MMP2012a.pdf)中的数据集来模拟,但是就这么直接的用AVA系统来处理照片,可能会在美感上有部分方面的缺失,比如做出的照片过饱和。再者,如果想通过监督学习适当地从多个方面来学习美感,所需的标签数据集会很难收集,所以这也不是一个好方法。

他们的方法只需要一些高质量的照片,不需要后期前后图像的对比或额外的标签。这个系统能自动将照片中的美感解析成不同方面,每一方面都能通过相反的图像操作产生的负面例子来单独学习。

通过使图像处理半正交化,可以找到快速和独立的最优化步骤,从构图、饱和度/HDR水平和明暗的张力上对图像进行美化:

图:图(a)是全景图,图(b)将图(a)进行裁切,图(c)是对图(b)进行饱和度和HDR优化处理,图(d)是应用戏剧张力蒙版之后的效果。

他们用传统的图像滤波器生成了包括饱和度、HDR细节和构图的负面例子,还引入了一种名为戏剧张力蒙版(dramatic mask)的特殊操作,它是在学习明暗张力概念的过程中一同产生的。

这些负面例子是这样生成的:应用一组图像滤波器,随机地调整高质量照片的亮度,将图片的质量变差。在训练中,他们使用生成对抗网络(GAN),在这种模式下,生成网络会创建一个蒙版来改善负面例子中的光线,判别网络则试图将光线改善后的照片与样本照片进行区分。

与vignette这样的固定形状滤波器(shape-fixed filter)不同,戏剧张力蒙版增加了内容感知亮度调节部分。GAN训练天然的竞争性极大地丰富了调节图像特性的能力,在论文中可以看到更多的训练细节。

结果

下面是这种系统基于Google街景的一些创作。如下图所示,经过训练后能够判断美感的滤波器创造出了一些让人惊叹的照片(包括文中最初出现的照片):

图:加拿大,贾斯珀国家公园

图:瑞士,茵特拉肯

图:意大利,Parco delle Orobie Bergamasche公园

图:加拿大,贾斯珀国家公园

专业评估 为了评价这个算法的效果如何,他们设计了一个类“图灵测试”实验:将这个系统创作出来的照片和其他不同质量的照片掺杂在一起,然后把它们展示给几个专业摄影师。他们要求这些摄影师为每张照片评分,分数是基于如下标准:

1分:傻瓜式拍照,照片没有考虑构图以及光线等因素。

2分:没有摄影基础的一般大众拍出来的照片,看起来还可以,但没有明显的艺术感。

3分:半专业。照片中展示出了明显的艺术感,摄影师正朝着专业摄影师迈进。

4分:专业。

在下面的图表中,曲线显示了专业摄影师为已经预估分数的图片打的分数。对于他们预估的高分图片,大约有40%收到了“半专业”或“专业”的评价。

未来的研究

街道全景图为这个项目提供了一个测试平台。有一天,这种技术甚至可以帮助我们现实世界中拍出更好看的照片。

论文地址: https://arxiv.org/abs/1707.03491

via:Google Research Blog,AI科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

等你在2118:探索机器学习算法生命周期

【导读】1月22日,统计学家Venkat Raman发布了一篇比较有意思的博文,作者探讨了到2118年,即未来一百年中机器学习中一些算法可能的兴衰存亡。具体分析...

35112
来自专栏AI科技评论

深度丨女主播的“逆天”美颜原来是靠这些 AI 技术实现的

雷锋网按:本文内容来自涂图 CTO 邱彦林在硬创公开课的分享,在未改变原意的基础上进行了编辑整理。 几年前图片美颜教育了市场,到了直播时代,美颜同样成为直播平台...

1K6
来自专栏目标检测和深度学习

谷歌开启 Naturalist 2018 挑战赛,大型物种分类技术有望突破

雷锋网 AI 研习社按:计算机视觉技术从 70 年代到现在,40 多年时间得到迅速发展,许多计算机视觉的应用出现在了生产生活领域。尤其是到了 2012 年,基于...

37611
来自专栏人工智能头条

像教光学一样在高中教深度学习?怼过LeCun的Google大牛认为这事有出路

1203
来自专栏量子位

中国AI公司公开击败谷歌微软,这次是Yi+AI视觉团队

2018年7月,在国际权威计算机视觉竞赛PASCAL VOC comp4目标检测竞赛中,Yi+AI团队获得了目标检测单模型第一名,超越了现有排行榜中的微软研究院...

800
来自专栏吉浦迅科技

Facebook的三堂AI入门课

语音助理、智慧家电、购物推荐⋯⋯ 人工智能替我们的生活中带来便利,但却也让不少人担心人工智能发展到最后,是否会产生自主行为,形成电影中机器挑战人类的情节。 在图...

36014
来自专栏新智元

【吴恩达主讲CS229机器学习】最新课程安排,附吴恩达ML算法应用建议

【新智元导读】经典机器学习课程、由吴恩达主讲的斯坦福CS229最新一期已经开始。用吴恩达的话说,他之所以还保留斯坦福教职很大程度上就是想教授这门课。本文将介绍课...

3337
来自专栏AI科技大本营的专栏

AI是万能的吗?当前AI仍面临的难题是什么?

【导读】谈到人工智能(特别是计算机视觉领域),大家关注的都是这一领域不断取得的进步,然而人工智能到底发展到什么程度了?AI 已经成为万能的了吗?Heuritec...

992
来自专栏机器之心

学界 | 邓力等人提出BBQ网络:将深度强化学习用于对话系统

36914
来自专栏ATYUN订阅号

【研究】国外研究:一种可以通过文本描述直接生成视频的新方法

最近,一种新的方法可能会让电影编剧拒绝来自大型电影制片厂的巨额预算和强大资源 — 依靠文本进行视频生成(Video Generation from Text)。...

3059

扫码关注云+社区