“看脸判断性取向”研究者：我们是为了让同性恋人群感到可能已经面临的风险

新智元

发布于 2018-03-22 14:17:44

1.1K0

发布于 2018-03-22 14:17:44

文章被收录于专栏：新智元

【新智元导读】斯坦福大学 Michal Kosinski 和 Yilun Wang 关于面部识别判断性取向的研究已经引起了巨大争议，但两位研究者在论文中所做的关于研究意义及研究局限性的声明却并未引起广泛注意。“我们认为亟需让政策制定者、大众和同性恋社群意识到他们可能已经面临的风险”——这样的理由是否能够成为公布此项研究的合理原因？

深度学习赋能的面部识别技术，似乎并不满足于识别你这个人，而是要识别出你的贫富、犯罪倾向……如今，你的性取向甚至也要被“识别”出来。

斯坦福大学 Michal Kosinski 和 Yilun Wang 的一项研究（论文地址：https://osf.io/zn79k/）表明，机器视觉技术可以通过分析人脸来推断性取向。研究人员使软件通过分析人的面部结构的微妙差异来做到这一点。Kosinski 博士表示，只要有正确的数据集，类似的AI系统可以被训练来发现其他私人的特征，例如智商和政治主张。人类可能无法看到脸表现出来的迹象，但机器就不一定做不到。

这一研究已引起了轩然大波，更有外媒直接评论该研究展示出了“数据时代的暗面”。然而，研究者本人在论文中所做的声明却并没有被广泛注意到，让我们先看看两位研究者是如何阐释自己研究的意义和局限的。

我们希望警告读者，不要误读或者过度解读研究结果

我们的研究结果表明了我们的面部包含了更多关于我们性取向的信息，而这些信息并未被人类大脑全部理解或解读。

我们的研究分为下列部分：

研究1a 显示 DNN 提取的面部特征能够用来准确识别男人和女人的性取向；

研究 1b 显示出系统的预测是基于面部区域而非背景；

研究 1c 揭示出同性恋男性和女性具有非典型性性别特征，这和 PHT 的预测一样（prenatal hormone theory，产前激素理论——这是被广泛接受的解释面部特征和性取向联系的理论）；

研究 2 显示是同性恋的概率和男性面部的女性特征成正关联，和女性面部的女性特征呈负关联；

研究3 确认了很多关于性取向的信息会体现在固定的面部特征中，例如面部轮廓和鼻子的形状；

研究 4 显示使用在研究1a 中的非标准面部图像对性取向没有太多揭示意义，至少对人类判断来说是这样，其准确率和此前的研究相同，其中一些使用了在严格控制的环境中拍摄的比较中性的脸庞；

研究 5 显示，在研究1a 中开发的基于DNN 的分类器，当输入不同环境下拍摄的同性恋面部照片时，性能相似，由此进一步确认了以上结果；

我们的研究结果为 PHT 理论提供了强有力的证据。PHT 认为同性恋性取向源于男性胎儿对与产前雄性激素的暴露不足和女性胎儿对于产前雄性激素的暴露过度，产前雄性激素决定了面孔、偏好和行为的性特征。

重要：我们希望警告读者，不要误读或者过度解读研究结果。

首先，平均上来说，男性同性恋和女性同性恋面孔呈现非典型性性别特征，这一事实并不意味着所有的男同性恋比男异性恋更女性化，也不意味着没有男同性恋具有显著的男性面部特征，女同性恋的情况也是如此。本研究所观测到的女性化特征差异是细微的，覆盖了许多面部特征，而且只有在检视许多面孔的平均图像时才凸显出来。

第二，我们的结果决不是要说明人类能够从面孔判读出一个人的性取向。事实上，研究 4 确认了，人类在通过面部判断同性恋和异性恋个体的面部图像时，是非常不准确的。

最后，对分类准确度的解读也很重要，甚至经常和直观感受相反。AUC = .91 并不意味着在给定人口中，男同性恋的 91% 可以被识别，或分类结果在 91% 的时间里是正确的。分类器的性能依赖于准确率（即分类器认为是同性恋的人群中，真实同性恋的比例）和召回率（即正确识别为同性恋的人群在所有给定人群中真实同性恋的比例）的平衡。

追求更高的准确率会降低召回率，反之亦然。

“图像是从某约会网站上取得的，它们本身可能就特别展示出了性取向”

本研究存在一些局限性。我们使用的是不同质量、不同头部方向和面部表情的非标准图像。这提供了更高的形态有效性和更大、更具有代表性的样本，但也引入了干扰因子。另外，图像是从某约会网站上取得的，它们本身可能就特别展示出了性取向。

我们采用了一个专门训练用来识别面部固定特征的模型（研究 1a），揭示了使得预测和PHT 理论一致的的面部特征（研究 1c 和研究 2），确定了研究使用的图片并不比在受控环境下拍摄的中性面孔照片（研究 4）或从 Facebook 上获取的照片（研究 5）更具有揭示意义。由此，我们相信自己的研究是充分的。

另一个问题和 ground truth 的质量有关：有可能一些被分类成为异性恋的用户，实际上是同性恋或双性恋（反之亦然）。然而，我们相信，在约会网站上资源寻找伴侣的人，错误展示其性取向的动机不大。另外，如果有一些用户确实被错误标记了，纠正这些错误可能会使分类器的准确度进一步提高。

此外，尽管我们努力去获取更多样性的样本，我们仍然只研究了美国的白人参与者。由于对同性恋人群的偏见，以及不同种族的用户对约会网站的使用并不平均，我们无法找到足够数量的非白人同性恋参与者。

然而，我们相信，我们的结果有可能泛化到研究的人群之外。结果和性取向的 PHT 理论一致，这一理论本身被许多关于人类和哺乳动物的研究所支持。因为对非典型性别雄性激素的暴露水平对不同种族的人类面孔的影响程度可能相似，他们的面孔有可能会同样揭示出性取向。

最后，带有明显同性恋面部特征的个体更有可能公开性取向。如果真是这样，在公开性取向的同性恋的面部照片上训练而得的分类器的准确度可能在检测非公开性取向的同性恋时降低。我们没有数据测试这一假说，需要注意的是，“公开性取向”取决于许多社会、文化和法律因素。

“我们认为亟需让政策制定者、大众和同性恋社群意识到他们可能已经面临的风险”

我们的样本中，公开性取向的用户可能希望或者需要在许多环境下维持隐私。

这使我们遇到了最富有争议的非理论性的后果：隐私。此前的研究揭示过个体的“数字脚印”（digital footprints）和性取向的关系——如社交网络的构成或者 Facebook 上的“喜欢”情况——但这种“数字脚印”是可以被隐藏、匿名或修饰的。而一个人的面孔，无法被轻易隐藏。面部图像可以被轻易拍摄和分析（如通过智能手机或监控摄像头）。

数十亿人的面部图像也被存储在数字或传统载体中，包括约会平台、照片共享网站以及政府的数据库。这些照片可以轻易获得，比如Facebook、LinkedIn 和 Google Plus 的头像照片就可以被网上的任何人看到。我们的研究结果显示出，用这些公开数据和传统的机器学习工具就可以开发出准确的性取向分类器。这种方法可以在不经人同意甚至知晓的情况下，就可以用来检测其性取向。更有甚者，研究中报告的准确度可能还没有达到能实现的上限。采用更清晰、更大量的照片，更大的数据集，更强大的 DNN 算法，可能会大幅提升准确度。

一些人可能会想，我们的研究结果是否应该公布于众，因为这样的结果可能恰恰会引发我们所警告的应用。我们同意这种担忧。然而，因为政府和企业似乎已经在部署旨在检测隐藏特征的面试识别分类器，我们认为亟需让政策制定者、大众和同性恋社群意识到他们可能已经面临的风险。

延迟或放弃发布这些调查结果可能会剥夺个人采取预防措施的机会，也会让政策制定者在制定立法来保护人们隐私时产生滞后。此外，除了强调其工作的伦理含义外，这项工作对于那些可能正在开发或部署分类算法的人来说没有任何优势。我们使用的是现成的工具，公开的数据和计算机视觉从业者熟知的方法。我们没有创建会侵犯隐私的工具，而是表明基本的、广泛使用的方法也能造成严重的隐私威胁。我们希望我们的调查结果能够向公众和政策制定者提个醒，并激励他们设计技术、通过政策，减少世界各地同性恋人群面临的风险。

我们生活中日益增长的数字化以及AI的快速发展，不断地侵蚀个人隐私。政策制定者和技术公司似乎认为，为个人提供更多数字足迹控制的立法和新技术可以扭转这一趋势。但数字环境很难确保政策法规的执行。无需用户同意，数据可以轻松地跨越边界移动，被盗或被人记录。

此外，即使用户对其数据进行了充分的控制，也难以想象他们不会公开分享任何东西。大多数人希望他们的一些社交媒体文章、博客或个人资料被公开。很少有人愿意在公众场合掩饰自己的脸。正如这个和其他研究表明的，这样基于共享愿望之上的数字足迹可以用来揭示某些个人隐私。因此，我们认为，隐私的进一步削弱是不可避免的，在某些文化中被排斥的同性恋者和其他少数民族的安全也取决于社会和政府的宽容。如果由受过良好教育的宽容人士致力于平等权利的人生活和居住，后隐私权世界也将是个更友好更安全的地方。

模型91%的时候能够正确分辨性取向

回过头来，让我们再来检视一下这项研究所采用的数据和方法。

研究论文发表在Journal of Personality and Social Psychology（个性与社会心理学杂志），具体做法是从一个美国流行的约会网站下载了36630个男性的130741张公开照片和38593个女性的170360张公开照片。他们使用基本的人脸检测技术来选择出具有足够大小和清晰度的单人的照片以供分析。经过这一步的选择，得到共35326张照片，包含14776人，其中同性恋和非同性恋、男性和女性比例一致。

接着他们将这些图片输入到被称为 VGG-Face 的软件，它会将输入的图像转换成数字来表示每个人，即他们的“faceprint”。下一步是使用一个简单的预测模型，即逻辑回归，来找出这些人脸图像的faceprint与其所有者的性取向之间的关系（性取向在该约会网站上是标明着的）。最后得到的模型在预测以前没见过的数据时，在分辨同性恋和非同性恋方面准确率远超人类。

当随机选择一张同性恋男性的照片和直男照片显示给程序时，模型81%的概率能正确区分。每个男性显示5张照片的情况下，模型91%的时候能够正确分辨性取向。女性的准确率略低，显示1张照片的情况下，正确率是71%；显示5张照片的情况下，正确率是 83%。这两种情况下，模型的准确率都超过了人类进行这种区分的能力。使用相同的图像，人类区分同性恋和非同性恋的准确率对于男性是61%，对于女性是54%。这与一些研究的结论一致，认为人们在根据外表分辨一个人是否同性恋方面准确率只略大于瞎猜。

两位研究者针对他们的模型的表现提出了一个可能的解释，说胎儿在子宫中发育时暴露于各种水平的激素（hormone），尤其是睾酮（ testosterone）。这些激素已经被证明对人的脸部结构有影响，并且可能对性取向的形成也有影响。两位研究者认为他们的系统能够获取后者的一些细微信号。使用其他技术，他们发现该程序在推断男性的性取向时最关注鼻子、眼睛、眉毛、脸颊、发际线和下巴；对于女性则更关注鼻子、嘴角、头发和衣领。

在被要求挑选出10个最有可能是同性恋的面孔时，模型挑选出的10个人中有9个确实是同性恋。也就是说，如果目标是从一大群人中挑出一小部分可能是同性恋的人，那么模型能够做到。Kosinski 等人做这项研究的目的并不是要创建一个能够直接确定某人是不是同性恋的软件，相反，他们的目标是证明这样的软件是可能的。

Kosinski 博士的这项研究引起了极大的争议，不过这不是他第一次引起争议了。之前他还使用Facebook的数据做心理测验分析，这些数据来源于用户在Facebook个人资料页填写的信息。

结合他和另一位研究者 Yilun Wang 的自述，希望大家能对这一研究有更全面的判断。

原文地址：https://osf.io/fk3xr/

https://www.economist.com/news/science-and-technology/21728614-machines-read-faces-are-coming-advances-ai-are-used-spot-signs

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-09，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能