深度 | “机器学习看脸定罪”引争议,谷歌 : 用更智能AI 算法反歧视

【新智元导读】上海交通大学的两位研究者武筱林与张熙的一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,用 1856 张真实的人的脸部照片建立四个分类器(逻辑回归,KNN,SVM,CNN),根据人的脸部特征预测一个人是否有犯罪倾向,并评估这些分类器的表现。Google 博客文章《用更智能的机器学习打击歧视》提出改进机器学习系统来避免歧视, 认为优化“机会均等”只是可用于改进机器学习系统的许多工具中的一个,而数学本身不可能得到最好的解决方案。对抗机器学习中的歧视问题需要仔细、多学科结合的方法。

最近,上海交通大学的两位研究者武筱林与张熙的一项题为“利用脸部照片自动推断犯罪性”(Automated Inference on Criminality using Face Images)的研究,试图利用基于机器学习的分类器模型充当 dominator,根据人的脸部特征预测一个人是否有犯罪倾向。研究者称“四个分类器(逻辑回归,KNN,SVM,CNN)都表现良好,为根据脸部特征自动预测犯罪性(criminality)提供了有效性证据”,并且“发现了一些可以预测犯罪性的结构上的区别特征,例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度”。研究者认为“不同于人类法官,计算机视觉算法/分类器不会有歧视,不会受到情绪、宗教、性别等因素的影响,因此具有客观性上的优势”。这项研究引起了相当多的讨论。

论文摘要

我们首次进行基于静止的人脸图像自动推测犯罪性的研究。通过有监督机器学习,我们使用 1856 张真实的人的面部照片建四个分类器(逻辑回归,KNN,SVM,CNN),这些人中有近一半是已被定罪的犯罪者,其余是非犯罪者,我们以民族、性别、年龄和面部表情作为控制要素,让计算机区分犯罪者和非犯罪者。四个分类器都表现良好,为根据脸部特征自动预测犯罪性提供了有效性证据,尽管围绕该主题存在历史性争议。此外,我们发现一些可以预测犯罪性的结构上的区别特征,例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度。这项研究最重要的发现是,犯罪者和非犯罪者的面部照片在表情的多样性方面非常不同。犯罪者的面部表情变化明显大于非犯罪者。由两组照片组成的两个流形看起来是同心的,非犯罪者的流形的跨度较小,表现出正常的规律。换句话说,一般守法公民的面貌与犯罪者的面貌相比具有更大程度上的相似性,也就是说,犯罪分子在面部表情上的差异比普通人更大。

数据准备

研究者收集了 1856 个人的证件照,他们都满足以下条件:中国人,男性,年龄在 18 至 55 周岁,没有胡子,脸上没有伤疤或其他标记。研究者把这个数据集标记为 S,再把它分为两个子数据集 Sc 和 Sn,Sc 代表犯罪者,Sn 代表非犯罪者。其中 Sn 包含 1126 张普通人的证件照,Sc 包含 730 张犯罪者(包括 330 张被通缉逃犯)的证件照。

数据集中的样本证件照

研究方法:四种分类器模型

为了使研究尽可能考虑周到,研究者对前述证件照数据集使用了四种分类器方法,分别是 K-最近邻法(K-Nearest Neighbor,KNN)、逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine,SVM)以及卷积神经网络(Convolutional Neural Network,CNN)。

对前三种分类器,研究者比较了它们在较广泛的特征上的表现,包括:1. 面部标志点,例如眼角、嘴角、鼻尖等;2. 由 PCA 模块生成的面部特征向量;3. 基于局部二值模式(LBP)的面部特征向量;4. 上述三者的结合。CNN 是没有明显特征向量的数据驱动的分类方法。对上述所有分类器,采用了一共十三个交叉验证(3 种分类器 × 4 种向量特征,再加上 CNN),每个 10 次运行一共 130 次实验(13 cases × 10 runs),验证的结果采用平均值。

结果

四个分类器在 13 次交叉验证中的正确率

误判率

四个分类器的总体正确率

上图分别显示了四个分类器的总体正确率和误判率,可以看到,CNN 在交叉验证中的分类正确率最高,达到 89.51%。

验证

为了验证,研究者把数据集中的所有证件照以相等的概率随机标记为“正类”(positive)和“负类”(negative),并重做上述实验。结果表明,分类的平均正确率是48 %,正类和负类的错误率分别是 51% 和 50%。

区别特征

研究者接着采取机器学习的方法验证面部特征与犯罪性的关系,其方法是利用特征生成机(Feture Generating Machine,FGM)抓取面部的差别性特征(上图红框区域),比较的特征分别是眼内角间宽 d,鼻唇角角度 θ ,以及嘴角弧度 p。结果如下:

三个判别特征的直方图

三个判别特征 p,d,θ 的平均值和方差

结果显示,犯罪者的鼻唇角角度 θ 的平均值比非犯罪者大 19.6%,而且方差也更大;同样,犯罪者的平均嘴角弧度 p 比非犯罪者大 23.4%,但犯罪者的眼内角间距 d 比非犯罪者的稍小(5.6%)。这些结果证明了面部的区别特征可用于判断人的犯罪性,进一步地,能用于预测一个人是否倾向于犯罪。

结论

研究者在论文的结论中称,“通过多方面的实验和有力的交叉验证,我们证明了通过有监督的机器学习,由数据驱动的人脸分类器能够有效地推断人的犯罪性。此外,我们还发现了非犯罪者的面孔具有常态的规律性(相似性),在控制民族、性别和年龄等因素下,一般守法公民的面部表情比犯罪者的面部表情变化更少。”

讨论

有关这项研究的争论很多,下面从 Hacker News 上选取了几则,也欢迎读者留言讨论。

来自 nl:

当我阅读摘要时,我以为这是在开玩笑,但它看起来确实是一篇论文。尤其是这一段,这是我见过的“研究人员没有理解他们在做什么”的最糟糕的例子之一:

“与人类检察官/法官不同,计算机视觉算法或分类器绝对客观,它们没有情绪,没有由于过去的经验、种族、宗教、政治观念、性别、年龄等因素产生的偏见,没有精神疲劳、睡不好、吃不好等先决条件。自动推断犯罪性排除了元精确性(人类检察官/法官的能力)的变数。”

拜托,请读读《数学杀伤性武器》(Weapons of Math Destruction)了解优秀的机器学习是如何发现并利用数据集中的偏见的。

来自 AbrahamParangi :

我同意这种研究是有很长历史的伪科学(例如冥想学),甚至可以说这种研究是不负责任的。但我认为不应过度规定什么是有趣的科学,什么是有用的科学。可能它揭示了一些非常有趣的关系,如果它不做我们就可能错过这些发现。

来自 a_bonobo:

看起来他们没有把两个训练集(犯罪者/非犯罪者)分成两个测试集和训练集?

来自 ongoodie:

总的来说,我认为结果并不令人惊讶。大的遗传偏差会导致行为偏差和面貌的异常。另一方面,这个研究对执法来说毫无用处,因为对一般人来说,大多数看起来像犯罪分子的面孔其实是一般守法公民。但事实是,我们不喜欢这个研究的结果,不代表这个结果就是假的。可以参见第4页看它的验证,他们发现随机对图像进行标记无法产生这样好的分类结果。

Google:用更智能的机器学习对抗歧视

Google 博客文章《用更智能的机器学习对抗歧视》(Attacking discrimination with smarter machine learning)提出改进机器学习系统来避免歧视,这与引争议的上海交大的论文有相通之处。文章介绍了“阈值分类器”(threshold classifiers),一种输出结果只有“是”或者“否”的分类方法,即把一样东西归为一类或另一类,这种分类方法经常引起“歧视”争论。例如在银行贷款的例子中,银行综合各要素,以自己的利益最大化为目的,对每个申请贷款的人设置一个信用指数的“阈值”,高于这个值的人能得到贷款,低于这个值的人得不到贷款。研究者提出“机会均等”(equal opportunity)概念,在贷款的例子中,即是约束那些能够偿还贷款的人,每个组中处于相同部分的人实际上应该得到贷款。用数据科学的术语来说,即是“真阳性率”(true positive rate)在每个组中应该是相同的。

左:阈值分类器。信用分数越高,偿还贷款的可能性越高。深色圈代表偿还贷款的人,浅色圈代表违约者。右:分类的结果。

Google 研究者的论文中一个关键的结果是,基本上任何评分系统都可以有效地找到满足这些标准的阈值。也就是说,即使无法控制基础的评分系统,也能够抵抗歧视问题。对于能够控制评分系统的组织,使用这些定义可以帮助澄清核心的问题。如果一个分类器对某些组不如其他组那样有效,那么它可能在具有最多的不确定性因素的组里引起问题。平等机会阈值的限制将“不确定性责任”转移到评分系统的创建者身上。这就为投资于更好的分类器提供了动力。

图:对不同的组模仿贷款决定。如在“机会均等”的预制贷款策略中,蓝色和橙色组的人偿还能力相等。这样利益和公平性都得到最大化,总体来说能获得贷款的人也最多。

Google 研究者认为优化“机会均等”只是可用于改进机器学习系统的许多工具中的一个,而数学本身不可能得到最好的解决方案。对抗机器学习中的歧视问题需要仔细、多学科结合的方法。

参考资料来源:

http://research.google.com/bigpicture/attacking-discrimination-in-ml/?

https://arxiv.org/abs/1611.04135

https://news.ycombinator.com/item?id=12983827

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-11-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

【总结】奇异值分解在缺失值填补中的应用都有哪些?

作者 Frank 本文为 CDA 数据分析师志愿者 Frank原创作品,转载需授权 奇异值分解算法在协同过滤中有着广泛的应用。协同过滤有这样一个假设,即过去某些...

2726
来自专栏量子位

伯克利AI实验室新论文:没有成对训练数据也能做图像风格转换

允中 编译整理 量子位 出品 | 公众号 图片造假技术一直是计算机视觉研究的一个重点(大误)。 其实我们要说的,是图片风格的变换。要训练神经网络完成这种转换,通...

3756
来自专栏大数据文摘

学界 | Github八月深度学习项目热搜Top 10,你Pick哪一个!

大家好!文摘菌发现了一份过去的一个月机器学习项目的Top 10,特地为大家搬运过来,看看你pick哪一个呢?

1151
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:回归(4.3节)

我们在本节中的主要学习目标是监督学习方法的另一个很好的例子,它也和最近邻分类一样简单:线性回归。以及它的近亲逻辑回归。

1027
来自专栏AI研习社

Kaggle 冰山图像分类大赛近日落幕,看冠军团队方案有何亮点

AI 研习社按,在日前结束的 Kaggle「Statoil/C-CORE Iceberg Classifier Challenge」(冰山图像分类大赛)中,由 ...

1982
来自专栏美团技术团队

即时配送的ETA问题之亿级样本特征构造实践

引言 ETA(Estimated time of Arrival,预计送达时间)是外卖配送场景中最重要的变量之一(如图1)。 我们对ETA预估的准确度和合理度会...

3585
来自专栏AI科技评论

深度 | 图普科技工程师:Mask R-CNN的理论创新会带来怎样的可能性?

melmcgowan 上周,AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》,第一作者何恺明带领团队提出了一种名为「Mask ...

2925
来自专栏大数据文摘

涨姿势!用深度学习LSTM炒股:对冲基金案例分析

2584
来自专栏量子位

取代MNIST?德国时尚圈的科学家们推出基准数据集,全是衣裤鞋包

李林 编译整理 量子位 报道 | 公众号 QbitAI MNIST,是一个手写数字数据集,除了用在机器学习入门的教学中,它还是对机器学习算法进行基准测试的常用数...

3517
来自专栏AI科技评论

干货 | 深度学习的可解释性研究(一):让模型「说人话」

不以人类可以理解的方式给出的解释都叫耍流氓,因此,我们要让模型「说人话」。只要记住这三个字,你就差不多把握了可解释性的精髓所在。

1343

扫码关注云+社区

领取腾讯云代金券