动态 | Google最新研究:让机器像人一样,“拍出”完美照片

AI科技评论按:Google的最新研究告诉我们,在摄影这种强主观判断的领域,机器也能像人一样审美,生成让摄影师都点赞的照片啦。具体是如何实现的,往下看吧!

AI科技评论将原文编译如下。

机器学习(ML)在许多目标明确的领域有优秀的表现。具有明确正误答案区分的任务将有助于训练,而且能让算法实现预设的目标,比如准确地从图像中识别物体,或者合理的将语言进行翻译。然而,也有许多领域的任务是很难客观评价的,在诸如评价一张照片美丽与否这种太主观的问题上时——这与每个人的审美有关,就不太适合用机器学习来解决了。

图:贾斯珀国家公园的一张专业摄影照

为了研究机器学习是如何学习主观概念的,Google针对艺术性的创作引入了一种试验性的深度学习系统。这个系统会模仿专业摄影师来展开工作。它的工作流程如下:从谷歌街景中浏览景观图,分析出最佳的构图,然后进行各种后期处理,从而创造出一幅赏心悦目的图像。

这位虚拟摄影师通过浏览阿尔卑斯山、加拿大的班夫及贾斯珀国家公园、加州Big Sur和黄石国家公园等地的4万张全景照片,创作了许多令人印象深刻的作品,其中一些甚至达到了专业水准——专业摄影师如此评价到。

训练模型 虽然照片中的美感可以用类似AVA系统(http://refbase.cvc.uab.es/files/MMP2012a.pdf)中的数据集来模拟,但是就这么直接的用AVA系统来处理照片,可能会在美感上有部分方面的缺失,比如做出的照片过饱和。再者,如果想通过监督学习适当地从多个方面来学习美感,所需的标签数据集会很难收集,所以这也不是一个好方法。

他们的方法只需要一些高质量的照片,不需要后期前后图像的对比或额外的标签。这个系统能自动将照片中的美感解析成不同方面,每一方面都能通过相反的图像操作产生的负面例子来单独学习。

通过使图像处理半正交化,可以找到快速和独立的最优化步骤,从构图、饱和度/HDR水平和明暗的张力上对图像进行美化:

图:图(a)是全景图,图(b)将图(a)进行裁切,图(c)是对图(b)进行饱和度和HDR优化处理,图(d)是应用戏剧张力蒙版之后的效果。

他们用传统的图像滤波器生成了包括饱和度、HDR细节和构图的负面例子,还引入了一种名为戏剧张力蒙版(dramatic mask)的特殊操作,它是在学习明暗张力概念的过程中一同产生的。

这些负面例子是这样生成的:应用一组图像滤波器,随机地调整高质量照片的亮度,将图片的质量变差。在训练中,他们使用生成对抗网络(GAN),在这种模式下,生成网络会创建一个蒙版来改善负面例子中的光线,判别网络则试图将光线改善后的照片与样本照片进行区分。

与vignette这样的固定形状滤波器(shape-fixed filter)不同,戏剧张力蒙版增加了内容感知亮度调节部分。GAN训练天然的竞争性极大地丰富了调节图像特性的能力,在论文中可以看到更多的训练细节。

结果

下面是这种系统基于Google街景的一些创作。如下图所示,经过训练后能够判断美感的滤波器创造出了一些让人惊叹的照片(包括文中最初出现的照片):

图:加拿大,贾斯珀国家公园

图:瑞士,茵特拉肯

图:意大利,Parco delle Orobie Bergamasche公园

图:加拿大,贾斯珀国家公园

专业评估 为了评价这个算法的效果如何,他们设计了一个类“图灵测试”实验:将这个系统创作出来的照片和其他不同质量的照片掺杂在一起,然后把它们展示给几个专业摄影师。他们要求这些摄影师为每张照片评分,分数是基于如下标准:

1分:傻瓜式拍照,照片没有考虑构图以及光线等因素。

2分:没有摄影基础的一般大众拍出来的照片,看起来还可以,但没有明显的艺术感。

3分:半专业。照片中展示出了明显的艺术感,摄影师正朝着专业摄影师迈进。

4分:专业。

在下面的图表中,曲线显示了专业摄影师为已经预估分数的图片打的分数。对于他们预估的高分图片,大约有40%收到了“半专业”或“专业”的评价。

未来的研究

街道全景图为这个项目提供了一个测试平台。有一天,这种技术甚至可以帮助我们现实世界中拍出更好看的照片。

论文地址: https://arxiv.org/abs/1707.03491

via:Google Research Blog,AI科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

谷歌传奇Jeff Dean给创业者的一小时AI讲座 | 86页PPT+视频

李林 若朴 编译整理 量子位 出品 | 公众号 QbitAI ? 少年,你知道Jeff Dean么? 传奇一般的Jeff Dean现在领导着Google Bra...

3133
来自专栏AI科技评论

旷视科技首席科学家孙剑:如何打造云、端、芯上的视觉计算 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

1093
来自专栏IT派

机器学习预测世界杯球队冠

3天后,2018年俄罗斯世界杯开打,首场比赛是东道主俄罗斯对阵沙特阿拉伯,将于6月14日拉开序幕。

693
来自专栏AI研习社

用深度学习玩「英雄联盟」;Facebook 开源物体检测平台 | Github 项目推荐

DeepLeague ——「英雄联盟LoL」深度学习 ? Github:https://github.com/farzaa/DeepLeague DeepL...

3728
来自专栏人工智能头条

DNN的隐喻分析:“深度学习”,深在何处

1233
来自专栏AI研习社

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文

来源 / Two Minute Papers 翻译 / 张丹婷 校对 / 囧囧 整理 / 雷锋字幕组 本期论文 "Imagination-Augmented ...

3457
来自专栏鹅厂优文

游戏人工智能 读书笔记 (七) 游戏与监督学习

本书英文版: Artificial Intelligence and Games - A Springer Textbook4

2295
来自专栏新智元

【震撼】这些专业级摄影作品竟然出自谷歌神经网络之手!

【新智元导读】谷歌研究人员提出利用机器学习学习“主观”概念的新方法,模仿专业摄影师的工作流程,遍览谷歌街景地图并搜索最佳作品,然后进行各种后续的处理,创造出媲美...

3198
来自专栏AI科技评论

丘成桐得意门生顾险峰:机器学习解决不了的医学图像问题,如何用几何方法来攻克?

AI 科技评论按:在 2017 图像计算与数字医学国际研讨会(ISICDM)上,顾险峰教授应邀出席并做了主题为“医学图像中的几何方法”的学术报告,介绍了基于他们...

4035
来自专栏大数据文摘

谷歌DeepMind AI再次完爆人类 读唇语正确率胜专家(附论文下载)

1365

扫码关注云+社区