观点 | 微软科学家谈机器学习的公平性问题:对性别和种族避而不谈并不是一个好方法

AI 科技评论按:ACM Fellow、微软杰出科学家和管理总监 Jennifer T. Chayes 近日以 ACM 的名义发表了一篇文章,介绍了机器学习中的公平性问题和现阶段研究人员们的应对方式。AI 科技评论编译如下。

机器学习是计算机科学的一个分支,通过识别在数据中存在的模式来发展算法。举例来说,我们的个人助手,如Cortana, Siri 和 Alexa, 会学习如何识别我们在说什么,并且运用与上百万人的交流来学习如何最好地回应我们的问题。

当计算机变得越来越智能的时候,一些数据科学家会因为发现他们的算法变得有性别歧视或者种族主义的倾向,而困惑不已。但是这样的现象是不该令人惊讶的,因为这些算法是经过社会数据的训练而成的,所用到的社会数据本身就是带有社会偏见,在训练时所用的评估指标会让算法会放大这些偏见。

比如,如果一个人单纯地训练一款机器学习算法来筛选简历,并且目标是根据一份工作之前的雇佣记录来挑选最合适的候选人,那么即使算法被清晰明确地指示去忽略“受保护的属性”比如种族和性别,结果还是可能会带有种族偏见或者性别偏见的。这是因为种族和性别是与其他“未受保护”信息比如姓名有关联的,而这些“未受保护”的信息是算法可以使用的。在招聘过程中,我们知道招聘人员倾向于做出与算法一样的选择,他们不会被告知申请者的性别,但是他们会认出一个女性名字并不会面试她,因为之前被雇佣的多数都是男性。

总体来讲,设计周到的算法时,即使训练的数据是有偏见的,计算机仍旧可以变得比一般人类决策者更加的公平。就如不论我们的孩子见到什么人做哪些工作,我们都会教导他们“任何人都有潜力做任何工作”,我们也可以教会智能的算法如何去忽视训练数据中的偏见。幸运的是,随着计算机变得越来越聪明,教他们这样的事情变得越来越简单。计算机现在能够理解什么是种族,什么是性别,并且社会数据也可以被用来自动地揭示和消除偏见。

目前的系统有时会表现出来非常强烈的偏见。当哈佛教授Latanya Sweeney将她自己的名字输入搜索引擎的时候,她收到一则广告写着“Latanya Sweeney曾被逮捕过吗?”并且会有偿地提供背景调查。背景调查的结果是Sweeney博士没有被捕记录,就像大多数杰出的科学家那样。这则广告明显是非常不合理的,并且是对Sweeney博士带有歧视性质的。如果潜在的雇主把Sweeney博士的名字输入搜索引擎中,他们也许会因为见到这则广告而立刻就不再考虑雇佣她。此外,Sweeney博士证明了,如果搜索比如Latanya这样更像黑人的名字,你会有比搜索不具种族特征的名字时更大的机会被展示这则“被逮捕过吗?”的广告。

好消息是,我们有很多的计算机科学家都非常关心机器学习算法的公平性,并且已经开发出了方法来让这些算法相比人类来的更不带有偏见。几年前,一组来自微软研究员和波士顿大学的研究者发现了在许多搜索引擎中天生就存在的性别歧视现象。当被要求去完成以下句子时,“男人会是电脑程序员而女人会是_”,这个工具会产生“家庭主妇”这样的答案。我们的团队让这个工具变得不那么带有偏见,从而使它产出性别中立的答案,这让我们的算法比人类来的更加公平。

一群来自微软研究员和哈佛大学的研究者最近设计了一款智能算法,这款算法在学习的中间阶段会直接读取“受保护的属性”比如种族或者性别,在这样的情况下,这款算法有时得出的决定会比人类判断具有更少的偏见。假想我们要为我所在的组织招聘一位新的管理者。我们单纯的招聘算法会学习我们过去优秀的管理者,并且按照这些特征来推荐候选人。假设招聘算法发现我们的候选人曾经有过雇佣历史的中断,而这样的中断与“成为好的管理者”是呈现负相关的。因为我所采集的数据中绝大多数管理者都是男性,这样得出的结论就会是有雇佣历史中断的男性会在管理岗位上表现的更差。

现在让我们考虑一下如果候选人是女性的情况。大多数女性都有可能会花几年的时间离开工作环境,来抚养孩子,并且在这个过程中她们学会如何平衡非常多的、互相间有竞争关系的事情,这样的经历会让她们重返工作环境的时候成为更好的管理者。但是我们单纯的招聘算法不会在数据中发现这样关于女性的细节,因为在训练数据中的男性数据在数量上占据着绝对的优势。我们的研究者发现如果他们将单纯幼稚的算法分别使用在不同的、依照受保护属性来划分的群体上,算法在做决定的过程中会显示出更少的偏见。在这样的情况中,算法不会惩罚雇用历史有中断而又追求管理者工作的女性。目前的法律是不允许在做招聘决策的过程中使用性别这一信息的,但是这一最新的结果可以为未来的监管提供新的视角。

一些人认为消除算法中的偏见是一件天生不能成功的事情,但是就像无可避免会牵涉到交通事故中的自动驾驶汽车那样,第一步是要设计一套比人类更安全或者更不具偏见的系统。使用数学来定义“公平的”决策指标的过程也迫使我们需要精确地做出在公平和准确之间的取舍,这样的取舍在以前有时会被决策者有意或无意的遮掩起来。这样的过程让我们重新审视什么叫做公平对待一切群体 —— 在一些情况下,要想公平对待不同的群体,学习他们不同的群体特征是必经之路。

在计算机科学,法律,道德的交汇处正在形成一个全新的领域。它不仅会引领我们创造更公平的算法,并且会引领我们找到可以追踪责任的算法,这样的算法会使一个决定背后都有哪些影响因素变的更透明。我们有足够的理由对这样的算法抱有期待!

via huffingtonpost,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

深度学习和人工智能正在引领我们走向智能住宅

未来的智能住宅计划正在慢慢变得越来越可行。在这些计划中,住宅能够为住户完成所有家务,如将晚餐做好并放到厨房的餐桌上,同时具有各种便利设施。随着深度学习研究的发展...

903
来自专栏机器之心

从TPU3.0到DeepMind支持的Android P,谷歌I/O 2018的AI亮点全在这了

1817
来自专栏量子位

痴人、信徒、先驱:深度学习三巨头等口述神经网络复兴史

现代神经网络、机器学习等AI技术背后的思想,可以追溯到第二次世界大战行将结束之际。彼时,学者们开始构建计算系统,旨在以类似于人类大脑的方式存储和处理信息。

1032
来自专栏思影科技

NEJM:Waving Hello to Noninvasive Deep-Brain Stimulation

近日多伦多大学Andres M. Lozano等人在新英格兰医学杂志发文,介绍了无创深部脑刺激技术。通过两个频率差异较小的电场信号刺激,激活深部大脑细胞,同时避...

3325
来自专栏新智元

【Nature】人工“迷你大脑”,首次揭示人脑神经网络建模机制

【新智元导读】本周发表于《自然》的两篇论文向理解人类大脑神经网络迈出了重要一步。斯坦福大学的研究人员在培养皿中构建了神经元三维模型,并将两种不同脑区不同类型的细...

43310
来自专栏企鹅号快讯

听说机器已经开始给人类歌手打分了,它能听懂人的歌声吗?

音乐类竞技节目层出不穷,台上你方唱罢我登场,台下专业评审和现场观众热情高涨:这句唱得好,加分!那句跑调了,减分!歌手唱哭了,满分!此时,如果有一个毫无感情色彩的...

2019
来自专栏人工智能快报

科学家提出量子生物识别技术

美国《麻省理工学院技术评论》杂志发表文章,称科学家已经提出了量子生物识别技术。 在安全性方面,量子世界提供了无与伦比的财富。例如,根据物理学定律,量子密码能够提...

3097
来自专栏机器之心

现场 | NIPS举办了第一场记者发布会:请媒体警惕这波AI热潮

机器之心原创 作者:Tony Peng 面对记者,NIPS 大会传达了很明确的信息——请不要妖魔化机器学习。 今年落户长滩的 NIPS(神经信息处理系统进展大会...

3218
来自专栏企鹅号快讯

2017年十大技术突破之强化学习

作者|Will Knight 译者|严子怡 编辑|Emily 12 月,在巴塞罗那举行的今年最大的人工智能会议上,我目睹了这场模拟驾驶的全过程。最让我惊讶的是,...

18710
来自专栏PPV课数据科学社区

大数据时代统计学发展的若干问题

作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”...

2686

扫描关注云+社区