深度 | “机器学习看脸定罪”引争议，谷歌 : 用更智能AI 算法反歧视

新智元

发布于 2018-03-26 15:10:32

7870

发布于 2018-03-26 15:10:32

文章被收录于专栏：新智元

【新智元导读】上海交通大学的两位研究者武筱林与张熙的一项题为“利用脸部照片自动推断犯罪性”的研究，利用基于有监督的机器学习的方法，用 1856 张真实的人的脸部照片建立四个分类器（逻辑回归，KNN，SVM，CNN），根据人的脸部特征预测一个人是否有犯罪倾向，并评估这些分类器的表现。Google 博客文章《用更智能的机器学习打击歧视》提出改进机器学习系统来避免歧视，认为优化“机会均等”只是可用于改进机器学习系统的许多工具中的一个，而数学本身不可能得到最好的解决方案。对抗机器学习中的歧视问题需要仔细、多学科结合的方法。

最近，上海交通大学的两位研究者武筱林与张熙的一项题为“利用脸部照片自动推断犯罪性”（Automated Inference on Criminality using Face Images）的研究，试图利用基于机器学习的分类器模型充当 dominator，根据人的脸部特征预测一个人是否有犯罪倾向。研究者称“四个分类器（逻辑回归，KNN，SVM，CNN）都表现良好，为根据脸部特征自动预测犯罪性（criminality）提供了有效性证据”，并且“发现了一些可以预测犯罪性的结构上的区别特征，例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度”。研究者认为“不同于人类法官，计算机视觉算法/分类器不会有歧视，不会受到情绪、宗教、性别等因素的影响，因此具有客观性上的优势”。这项研究引起了相当多的讨论。

论文摘要

我们首次进行基于静止的人脸图像自动推测犯罪性的研究。通过有监督机器学习，我们使用 1856 张真实的人的面部照片建四个分类器（逻辑回归，KNN，SVM，CNN），这些人中有近一半是已被定罪的犯罪者，其余是非犯罪者，我们以民族、性别、年龄和面部表情作为控制要素，让计算机区分犯罪者和非犯罪者。四个分类器都表现良好，为根据脸部特征自动预测犯罪性提供了有效性证据，尽管围绕该主题存在历史性争议。此外，我们发现一些可以预测犯罪性的结构上的区别特征，例如嘴角的弧度、眼内角间宽、以及所谓的鼻唇角角度。这项研究最重要的发现是，犯罪者和非犯罪者的面部照片在表情的多样性方面非常不同。犯罪者的面部表情变化明显大于非犯罪者。由两组照片组成的两个流形看起来是同心的，非犯罪者的流形的跨度较小，表现出正常的规律。换句话说，一般守法公民的面貌与犯罪者的面貌相比具有更大程度上的相似性，也就是说，犯罪分子在面部表情上的差异比普通人更大。

数据准备

研究者收集了 1856 个人的证件照，他们都满足以下条件：中国人，男性，年龄在 18 至 55 周岁，没有胡子，脸上没有伤疤或其他标记。研究者把这个数据集标记为 S，再把它分为两个子数据集 Sc 和 Sn，Sc 代表犯罪者，Sn 代表非犯罪者。其中 Sn 包含 1126 张普通人的证件照，Sc 包含 730 张犯罪者（包括 330 张被通缉逃犯）的证件照。

数据集中的样本证件照

研究方法：四种分类器模型

为了使研究尽可能考虑周到，研究者对前述证件照数据集使用了四种分类器方法，分别是 K-最近邻法（K-Nearest Neighbor，KNN）、逻辑回归（Logistic Regression）、支持向量机（Support Vector Machine，SVM）以及卷积神经网络（Convolutional Neural Network，CNN）。

对前三种分类器，研究者比较了它们在较广泛的特征上的表现，包括：1. 面部标志点，例如眼角、嘴角、鼻尖等；2. 由 PCA 模块生成的面部特征向量；3. 基于局部二值模式（LBP）的面部特征向量；4. 上述三者的结合。CNN 是没有明显特征向量的数据驱动的分类方法。对上述所有分类器，采用了一共十三个交叉验证（3 种分类器 × 4 种向量特征，再加上 CNN），每个 10 次运行一共 130 次实验（13 cases × 10 runs），验证的结果采用平均值。

结果

四个分类器在 13 次交叉验证中的正确率

误判率

四个分类器的总体正确率

上图分别显示了四个分类器的总体正确率和误判率，可以看到，CNN 在交叉验证中的分类正确率最高，达到 89.51%。

验证

为了验证，研究者把数据集中的所有证件照以相等的概率随机标记为“正类”（positive）和“负类”（negative），并重做上述实验。结果表明，分类的平均正确率是48 %，正类和负类的错误率分别是 51% 和 50%。

区别特征

研究者接着采取机器学习的方法验证面部特征与犯罪性的关系，其方法是利用特征生成机（Feture Generating Machine，FGM）抓取面部的差别性特征（上图红框区域），比较的特征分别是眼内角间宽 d，鼻唇角角度 θ ，以及嘴角弧度 p。结果如下：

三个判别特征的直方图

三个判别特征 p，d，θ 的平均值和方差

结果显示，犯罪者的鼻唇角角度 θ 的平均值比非犯罪者大 19.6%，而且方差也更大；同样，犯罪者的平均嘴角弧度 p 比非犯罪者大 23.4%，但犯罪者的眼内角间距 d 比非犯罪者的稍小（5.6%）。这些结果证明了面部的区别特征可用于判断人的犯罪性，进一步地，能用于预测一个人是否倾向于犯罪。

结论

研究者在论文的结论中称，“通过多方面的实验和有力的交叉验证，我们证明了通过有监督的机器学习，由数据驱动的人脸分类器能够有效地推断人的犯罪性。此外，我们还发现了非犯罪者的面孔具有常态的规律性（相似性），在控制民族、性别和年龄等因素下，一般守法公民的面部表情比犯罪者的面部表情变化更少。”

讨论

有关这项研究的争论很多，下面从 Hacker News 上选取了几则，也欢迎读者留言讨论。

来自 nl：

当我阅读摘要时，我以为这是在开玩笑，但它看起来确实是一篇论文。尤其是这一段，这是我见过的“研究人员没有理解他们在做什么”的最糟糕的例子之一：

“与人类检察官/法官不同，计算机视觉算法或分类器绝对客观，它们没有情绪，没有由于过去的经验、种族、宗教、政治观念、性别、年龄等因素产生的偏见，没有精神疲劳、睡不好、吃不好等先决条件。自动推断犯罪性排除了元精确性（人类检察官/法官的能力）的变数。”

拜托，请读读《数学杀伤性武器》（Weapons of Math Destruction）了解优秀的机器学习是如何发现并利用数据集中的偏见的。

来自 AbrahamParangi ：

我同意这种研究是有很长历史的伪科学（例如冥想学），甚至可以说这种研究是不负责任的。但我认为不应过度规定什么是有趣的科学，什么是有用的科学。可能它揭示了一些非常有趣的关系，如果它不做我们就可能错过这些发现。

来自 a_bonobo：

看起来他们没有把两个训练集（犯罪者/非犯罪者）分成两个测试集和训练集？

来自 ongoodie：

总的来说，我认为结果并不令人惊讶。大的遗传偏差会导致行为偏差和面貌的异常。另一方面，这个研究对执法来说毫无用处，因为对一般人来说，大多数看起来像犯罪分子的面孔其实是一般守法公民。但事实是，我们不喜欢这个研究的结果，不代表这个结果就是假的。可以参见第4页看它的验证，他们发现随机对图像进行标记无法产生这样好的分类结果。

Google:用更智能的机器学习对抗歧视

Google 博客文章《用更智能的机器学习对抗歧视》（Attacking discrimination with smarter machine learning）提出改进机器学习系统来避免歧视，这与引争议的上海交大的论文有相通之处。文章介绍了“阈值分类器”（threshold classifiers），一种输出结果只有“是”或者“否”的分类方法，即把一样东西归为一类或另一类，这种分类方法经常引起“歧视”争论。例如在银行贷款的例子中，银行综合各要素，以自己的利益最大化为目的，对每个申请贷款的人设置一个信用指数的“阈值”，高于这个值的人能得到贷款，低于这个值的人得不到贷款。研究者提出“机会均等”（equal opportunity）概念，在贷款的例子中，即是约束那些能够偿还贷款的人，每个组中处于相同部分的人实际上应该得到贷款。用数据科学的术语来说，即是“真阳性率”（true positive rate）在每个组中应该是相同的。

左：阈值分类器。信用分数越高，偿还贷款的可能性越高。深色圈代表偿还贷款的人，浅色圈代表违约者。右：分类的结果。

Google 研究者的论文中一个关键的结果是，基本上任何评分系统都可以有效地找到满足这些标准的阈值。也就是说，即使无法控制基础的评分系统，也能够抵抗歧视问题。对于能够控制评分系统的组织，使用这些定义可以帮助澄清核心的问题。如果一个分类器对某些组不如其他组那样有效，那么它可能在具有最多的不确定性因素的组里引起问题。平等机会阈值的限制将“不确定性责任”转移到评分系统的创建者身上。这就为投资于更好的分类器提供了动力。