魔镜魔镜告诉我,什么表情最美丽

前言

本文介绍了把大量照片众包给网友评分,从而来训练机器“审美能力”的新思路。

众包(crowdsourcing)最早是由美国《连线》杂志的编辑杰夫·豪和马克·罗宾森于2006提出的一个概念,意指通过分解一项复杂任务为碎片化的小任务,借助互联网社群而非传统公司雇员将它们分发给大众,从而获得服务、创意或者内容的组织方式。借助众包打分,机器的“审美能力”获得大幅提升。

Mirror Mirror: Crowdsourcing Better Portraits

魔镜:众包创造更好的头像

我们通过从电影中截图的方式,收集了大量积极情绪的人脸照片。然后使用众包和机器学习的方法来训练一些可以给表情照片评分的模型。这些模型可以从严肃或者大笑的各种表情照片中选出有最佳表情的一张。

Introduction

引言

人像是照片中最常见的主题。但是,许多人在镜头面前会感到焦虑:什么样的表情好看?我的微笑是富有魅力的还是尴尬的?我们都曾因照片上那个不是最好的自己而失望。模特和演员在镜头前会有专人指导,而我们则缺乏反馈,不知道做什么表情好。即使是镜子里的自我认知也可能有偏差,因为镜子里的图像是翻转的。但更重要的是,我们之所以对自己的看法与别人不同,还因为我们的感知受到了自我形象和内心情绪的影响。

在照片拍好后再进行美颜的方法有很多,但是,我们不能限制别人给我们拍照和发朋友圈,而且很多人不习惯在拍照时刻意控制表情。所以,我们的目标是教人们拍出更好表情的照片。也就是说,我们的方法是为用户提供反馈,让他们了解他们的脸部表情,以便拍照时他们能够更好地准备。当然我们的方法也能用来从相册或视频中选择最漂亮的人物照片。

第一步,是抓取用户表情中,那些适合用做头像的。我们让用户看一段12分钟的视频片段,诱发他们表现出一系列中性和积极的情绪,并把这些表情拍摄记录下来。然后,用一种新型的数据驱动的计算机视觉模型,自动预测表情在“吸引力”和“严肃性”两个坐标轴上的分数。 (模型包括很多属性,这样就可以在各种场景中发现最好的表情,从社交场景中的大笑脸到专业肖像的中性表情)。虽然该方法对用户表情分数做了合理近似,但它不能捕获不同人物相似表情之间的细微差异。因此,我们在此介绍一种新的基于众包模式的主动学习方案(active learning scheme),它既可以根据用户的数据定制模型,也可以选出在不同严肃程度上的最佳表情。这种主动学习方案(active learning scheme)比起随机抽样的数据收集,降低了一个数量级,仅仅需要5美元。

我们提供了一些接口和图示,以向用户展示模型结果。第一个示意图简单地向用户展示了他们在25个严肃等级中最有吸引力的表情(图1,4)。接下来,我们提供了许多工具来深入探索数据并将其可视化。例如,用户可以根据建议改变表情,比如“睁大眼睛”,就会看到更多的相似表情以及吸引力分数的改化。还可以看到数据切片之间的差异,比如都包含有睁眼的最佳表情和最差表情之间的差异。最后,我们还提供了一个表情训练程序,称为“魔镜”,让用户在网络摄像头前练习做表情。用户可以看到他们吸引力和严肃性的实时得分。选定一个理想表情之后,可视化工具会将实时表情和选定表情做平滑过渡处理,用户对着魔镜,就能练习模仿出这个最佳表情了。

我们测试了11个输入视频的方法,并在数据上评估了我们的方法。还示范训练了一个应用程序,以显示主题可以用它来模仿选定的表达式。 最后,我们运用我们的方法从互联网下载的视频以及个人照片集中选择最有吸引力的表情。

Overview

概述

我们的系统有许多部分,可以分为两个主要步骤:训练和测试。

训练:首先收集11个人的大量照片,这些都是对齐了的面部表情(第4节)。第一步是对每幅图片的两个属性评分:吸引力和严肃性。我们使用众包方法,收集每个人和属性的随机抽样配对比较(第4.3节),然后用 MAP(最大后验概率估计)来计算每幅图片的属性得分(第5.1节)。既然我们对不同严肃等级上表情吸引力的排名很感兴趣,我们就收集额外的众包配对,比较出最高得分,并重新估计得分,以获得更准确的排名。单个主题的这些分数被用来训练一个单主题回归模型,可以估计同一主题不同图像的属性分数。该模型将单个图像作为输入特征,并且可以对之前未看到的主体图像进行操作。最后,我们将所有11个人的头像分数进行比较,并训练一个可以给任何人的表情评分的通用模型。这个模型适用性很广,可以在没有额外的众包的情况下给新人的表情评分,当然,它不如单人模型准确。

测试:我们提供了许多应用,如表格训练(第6节)和可视化工具(第7节),这些应用程序不在我们的训练数据中。 对于某些应用(例如图17),我们可以简单地使用通用评分模型来计算属性。 在要求更高精度的情况下,我们首先收集新主体表达的图像,并使用交叉主体模型计算基线属性分数。交叉主体模型对严肃性是足够准确的。 为了吸引人,我们使用主动学习方案(active learning scheme)来收集少数众包的成对比较。 在这个步骤中,我们重新估计每个图像的吸引力分数,使用成对比较和交叉主体模型作为粗略的先验。 最后,我们用新的分数训练一个改进的单人模型。

(从个人照片集中选出三个人,每人两行照片,第一行的十张最吸引人,第二行十张的吸引力评分则最低。分别使用了这三个人的111、101、85张头像,得到上面的结果。)

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171218G0P45B00?refer=cp_1026

扫码关注云+社区