【新智元导读】谷歌研究人员提出利用机器学习学习“主观”概念的新方法,模仿专业摄影师的工作流程,遍览谷歌街景地图并搜索最佳作品,然后进行各种后续的处理,创造出媲美专业摄影师的作品。
机器学习(ML)在许多有明确目标的领域表现优异。存在正确答案或错误答案的任务有助于训练过程,并有助于算法实现预期的目标,例如正确地识别图像中的对象,为一种语言到另一种语言提供恰当的翻译。但是,有一些领域是很难有客观评价的。例如,一张摄影作品是否美丽是通过它的审美价值来衡量的,这是一个非常主观的概念。
加拿大贾斯珀国家公园的(专业?)摄影
为了探索ML如何学习主观概念,我们为艺术创作提出一个实验性的深度学习系统 Creatism。它模仿专业摄影师的工作流程,遍览谷歌街景地图并搜索最佳作品,然后进行各种后续的处理,创造出具有美感的图像。我们的虚拟摄影师在阿尔卑斯山、班夫国家公园、贾斯珀国家公园、加利福尼亚州的大苏尔,以及黄石国家公园等地“旅行”,获取了约40000张全景照片,处理成非常令人印象深刻,甚至接近专业水平的作品——这是由专业摄影师评价的。
训练模型
虽然“美感”可以使用AVA之类的数据集进行建模,但单纯使用它来增强照片可能在美学的某些方面处理不好,例如使照片过度饱和。使用监督学习方法可以适当地学习美学的多个方面,但可能需要一个有标注数据集,这是很难收集的。
我们的方法仅需要一个专业水平照片的数据集,不需要在前/后进行图像配对,也不需要任何其他标签。该系统可以自动将“美感”分解为多个方面,每个方面都通过耦合的图像操作产生的负面例子单独学习。通过使这些图像操作保持“半正交”(semi-orthogonal),我们可以通过快速且可分离的优化来增强照片成分、饱和度/HDR水平,以及亮度。
图:一张全景照片(a)被裁剪成(b),饱和度和HDR增强的(c),以及应用了戏剧性的蒙版(dramatic mask)的(d)。每一步都由已学习的一个美学方面指导。
传统的图像滤波器用于产生饱和度,HDR细节和构图的负面训练样本。我们还提出一个名为“戏剧性蒙版”(dramatic mask)的特别操作,这是在学习“戏剧性光线”(dramatic lighting)的概念的同时创造的。负面训练样本是通过应用一系列图像滤波器的组合,在专业级摄影作品上随机修改亮度,降低图像的质量产生的。在训练中,我们使用生成对抗网络(GAN),其中生成模型创造一个mask来为负面样本修改光线,而鉴别器模型试图区分被增强的结果和真正的专业级照片。与固定形状的滤波器(例如晕影)不同,dramatic mask 为照片进行内容感知(content-aware)的亮度调整。GAN训练的竞争性质导致这些方案能导致好的变化。有关训练的更多细节请阅读我们的论文:Creatism: A deep-learning photographer capable of creating professional work(https://arxiv.org/abs/1707.03491)。
结果
我们的系统利用谷歌街景创作的一些作品如下。正如你所看到的,训练好的美学滤波器(aesthetic filter)的应用创造了一些令人印象深刻的结果(包括本文开头的那张照片!):
贾斯珀国家公园,加拿大
因特拉肯,瑞士
Park Parco delle Orobie Bergamasche,意大利
贾斯珀国家公园,加拿大
专业评价
为了判断我们的算法是否成功,我们设计了一个类似“图灵测试”的实验:我们将 Creatism 的创作与其他各种质量的照片混在一起,并展示给几位专业摄影师。他们被要求为每个作品评分,评价标准如下:
下图中,每条曲线代表专业摄影师给图像给有某个预测得分范围的图像的评价。对于我们的有较高预测得分的作品,有40%的几率它们被评价为“半专业级”或“专业级”。
有不同预测得分的照片从专业摄影师得到的评价
后续研究
谷歌街景为我们的项目提供了一个测试台。未来,这种技术甚至能够帮助我们在现实世界拍摄出更好的照片。我们做了一个showcase网页来展示一些令人满意的照片。如果你喜欢某张照片,可以点击图片显示附近的谷歌街景全景图。假如你当时正在那个地方举起照相机,会拍出一样的照片吗?
更多 Creatism 的作品:
论文下载:https://arxiv.org/abs/1707.03491
Showcase:https://google.github.io/creatism/
原文:https://research.googleblog.com/2017/07/using-deep-learning-to-create.html