AI看脸就知道性取向?不服气的我做了一个实验,结果……

导读:斯坦福有一个看脸预测性取向的AI,如同相面一般,根据面部特征就能判断一个人是直是弯,而且准确度喜人:

男生81%,女生74%

研究结果一公布,网友沸腾。也有不少人怀疑:AI哪有这么准?

作者:栗子 晓查 来源:量子位(ID:QbitAI)

凡事需得研究才会明白。有位名叫约翰(John Leuner)的少年,不止嘴上不信,身体还积极地复现了算法,要用新的数据做个试验,看看它究竟有没有那么准。

成绩依然不错:男生的准确率68%,女生达到了77%

这个结果,又引来网友们的一波激烈讨论。这一次,大家的关注点不仅仅是准确率本身,还有少年在复现研究中展现出的对AI的观察:

01 凭什么说我是直男

AI到底是靠哪些线索,来判断人类的性向?

约翰用了控制变量法,仔细观察人脸的每个角落。

首先,他用眼睛、眉毛、轮廓、嘴巴和鼻子的特征,单独指导AI的预测。

实验发现:

  • 男生的眼睛和眉毛,对AI预测性向最有指导意义,鼻子就没有帮助;
  • 而对女生来说,眼睛是最重要的,轮廓是最次要的。

接下来,是胡子和眼镜。

约翰发现,在留胡子和不留胡子的男生数量相同的数据集里,AI判断男生性向的准确度,并没有受到影响。

眼镜也一样,没有左右AI的预测。也就是说,靠刻意的伪装来欺骗AI,并不是个好办法。

神奇的是,就算缩小成5x5尺寸,AI的判断依然没有受到严重的影响。AUC基本保持在0.6-0.8之间,偶尔还会超过0.8 (下图之左虚线为5x5,右为大图) 。

所以,大概是靠气质判断的吧┑( ̄Д  ̄)┍。

为了做这些探索,约翰复现了一个深度神经网络模型和一个基于面部形态学(FM)的模型,还从约会网站中抓取了50万张照片,从中选取2万多张,做成性别、取向平衡分布的数据集。

他用VGG-Face神经网络,从图像中提取鼻子、胡须、眉毛、嘴角、发际线等面部特征,然后将照片转换成4096个元素的特征向量。

因为是约会网站,这些照片还会带有年龄、性别、性取向等标签信息。

然后作者根据面部特征训练了一个回归模型来预测性取向。2017年斯坦福大学的研究就是这么做的。当时,Kosinski教授把人脸所有相同性取向的脸合成了4张图片:

显然,这四张合成面部图片之间存在着差异。Kosinski教授就此断言,性取向通常伴随着特有的面部特征。

但是我们深究一下就会发现其中的问题:男同性恋的人脸合成图显示有眼镜。因此算法可能是根据脸上的配饰做出的判断。

fast.ai创始人Jeremy Howard认为,说AI无法通过照片判别性取向显然是不客观的,但相关性不等同于因果关系。

神经网络只是发现面部特征和性取向的相关性,没有解释这背后的原因,它只是一台识别机器。

02 又炸锅的网友

和两年前一样,这项政治不正确的研究带来了极大的争议。对研究结果,国外网友提出了很多质疑。

首先,带有偏见的数据集,必然导致带有偏见的结果。

有网友指出,gay一般比直男更在乎自己的形象,可能会精心打扮自己。而约会网站本来就带有强烈的目的性,用户会精心打扮自己吸引对象。

这会导致模型不太适用于其他社交媒体的场景。

这种猜测并非毫无根据,威斯康星大学麦迪逊分校的心理学教授William Cox研究发现,同性恋确实是更倾向于在网上发布自己高质量的图片。

之前斯坦福大学的实验结果也证实,将模型用在Facebook图片上时,准确率会降至52%。

另外,这套算法在5×5的图像上也有63%和72%的正确率,说明它还能根据皮肤、头发颜色进行分类。

但是5×5的马赛克基本上完全模糊掉了脸部特征,居然也能行!这与两年前Kosinski教授的推测相悖,更让人怀疑结果的可信程度。

实验数据的表示方法也让人怀疑不够客观。

比如数据集中有70%是直男、30%是gay,那么模型只要判断所有人都是直男,对准确率也会有70%。

比方说,每1000人中有50人是同性恋。准确率91%的结果会误认9%的直男为同性恋,也就是85人。

该算法还会将9%的同性恋者视为直男,也就是会识别出45人为同性恋。结果在130个“同性恋”中,有三分之二的人其实并不是同性恋。

约翰只是南非一个名不见经传的学生,对他的讨论尚且能控制在理性的范围内。

而斯坦福大学的Kosinski教授就没这么幸运了,他的研究一经公布,就引起了极大的非议,他本人甚至收到了许多死亡威胁。LGBT团体称他的研究是“垃圾科学”(junk science)。

在某些国家,同性恋属于违法行为,甚至最高会被判处死刑。即使是在一些同志合法的国家,这项技术也面临着泄露隐私的指责。

少年在自己61页长的论文中,就提到了这类技术的隐患:

这类能检测性取向的新技术,可能会对同性恋男女的隐私和安全造成严重的影响。

你怎么看?

这项研究在遭到LGBT团体强烈抵制的同时,Kosinski教授还提出了更大胆的主张,足以让每个人感到害怕。

他相信AI算法很快就能够仅通过面部图像来判断人的智力、政治倾向和犯罪倾向。

千万不要以为这只是臆想,以色列一家创业公司Faception已经开始出售这样一种AI软件,通过面相来识别恐怖分子,他们声称将这项技术用在11个恐怖分子身上,准确识别出了其中9人。

用AI给人看相真的靠谱吗?

论文链接:https://arxiv.org/abs/1902.10739

本文分享自微信公众号 - 大数据(hzdashuju)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏racaljk

[机器学习系列] k-近邻算法(K–nearest neighbors)

C++ with Machine Learning -K–nearest neighbors

12330
来自专栏用户2442861的专栏

c++ mnist转化为opecv Mat

本文主要介绍如何使用C++将mnist 数据集转化为Opencv Mat,问题来源主要代码以及运行示例如下:

10920
来自专栏用户2442861的专栏

caffe源码分析-db, io

主要内容: caffe源码分析-SyncedMemory caffe源码分析-Blob 其中Blob分析给出了其直接与opencv的图片相互转化以及操作,...

14820
来自专栏CSDN博客

《PaddlePaddle从入门到炼丹》七——强化学习

本章使用PaddlePaddle实现强化学习,并完一个小游戏。具体文字说明以后补全,就这样。

17040
来自专栏用户2442861的专栏

caffe源码分析-BlockingQueue

BlockingQueue线程安全的队列, 作为caffe训练时数据同步的重要数据结构,本文做简要分析。

11130
来自专栏用户2442861的专栏

caffe源码分析-layer

Data Layers定义了caffe中网络的输入,依赖于高效的数据库,例如(LevelDB or LMDB)。并且可以对数据做预处理,例如mean subtr...

14560
来自专栏用户2442861的专栏

caffe c++示例(mnist 多层感知机c++训练,测试)

caffe训练网络模型一般直接使用的caffe.bin: caffe train -solver solver.prototxt,其实这个命令的本质也是调用c+...

14120
来自专栏量化投资与机器学习

预测股市 | 如何避免p-Hacking,为什么你要看涨?

我们计算标普500指数过去一年的表现及每日回报率。但是过去两年的估值并不那么不稳定

15630
来自专栏用户2442861的专栏

caffe源码分析-ReLULayer

激活函数如:ReLu,Sigmoid等layer相对较为简单,所以在分析InnerProductLayer前,我们先看下激活函数层。

11010
来自专栏用户2442861的专栏

caffe源码分析-DataTransformer

下面仅仅给出将Datum类型转化为caffe的Blob, cv::Mat的转化同理.

13430

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励