观点 | 微软科学家谈机器学习的公平性问题:对性别和种族避而不谈并不是一个好方法

AI 科技评论按:ACM Fellow、微软杰出科学家和管理总监 Jennifer T. Chayes 近日以 ACM 的名义发表了一篇文章,介绍了机器学习中的公平性问题和现阶段研究人员们的应对方式。AI 科技评论编译如下。

机器学习是计算机科学的一个分支,通过识别在数据中存在的模式来发展算法。举例来说,我们的个人助手,如Cortana, Siri 和 Alexa, 会学习如何识别我们在说什么,并且运用与上百万人的交流来学习如何最好地回应我们的问题。

当计算机变得越来越智能的时候,一些数据科学家会因为发现他们的算法变得有性别歧视或者种族主义的倾向,而困惑不已。但是这样的现象是不该令人惊讶的,因为这些算法是经过社会数据的训练而成的,所用到的社会数据本身就是带有社会偏见,在训练时所用的评估指标会让算法会放大这些偏见。

比如,如果一个人单纯地训练一款机器学习算法来筛选简历,并且目标是根据一份工作之前的雇佣记录来挑选最合适的候选人,那么即使算法被清晰明确地指示去忽略“受保护的属性”比如种族和性别,结果还是可能会带有种族偏见或者性别偏见的。这是因为种族和性别是与其他“未受保护”信息比如姓名有关联的,而这些“未受保护”的信息是算法可以使用的。在招聘过程中,我们知道招聘人员倾向于做出与算法一样的选择,他们不会被告知申请者的性别,但是他们会认出一个女性名字并不会面试她,因为之前被雇佣的多数都是男性。

总体来讲,设计周到的算法时,即使训练的数据是有偏见的,计算机仍旧可以变得比一般人类决策者更加的公平。就如不论我们的孩子见到什么人做哪些工作,我们都会教导他们“任何人都有潜力做任何工作”,我们也可以教会智能的算法如何去忽视训练数据中的偏见。幸运的是,随着计算机变得越来越聪明,教他们这样的事情变得越来越简单。计算机现在能够理解什么是种族,什么是性别,并且社会数据也可以被用来自动地揭示和消除偏见。

目前的系统有时会表现出来非常强烈的偏见。当哈佛教授Latanya Sweeney将她自己的名字输入搜索引擎的时候,她收到一则广告写着“Latanya Sweeney曾被逮捕过吗?”并且会有偿地提供背景调查。背景调查的结果是Sweeney博士没有被捕记录,就像大多数杰出的科学家那样。这则广告明显是非常不合理的,并且是对Sweeney博士带有歧视性质的。如果潜在的雇主把Sweeney博士的名字输入搜索引擎中,他们也许会因为见到这则广告而立刻就不再考虑雇佣她。此外,Sweeney博士证明了,如果搜索比如Latanya这样更像黑人的名字,你会有比搜索不具种族特征的名字时更大的机会被展示这则“被逮捕过吗?”的广告。

好消息是,我们有很多的计算机科学家都非常关心机器学习算法的公平性,并且已经开发出了方法来让这些算法相比人类来的更不带有偏见。几年前,一组来自微软研究员和波士顿大学的研究者发现了在许多搜索引擎中天生就存在的性别歧视现象。当被要求去完成以下句子时,“男人会是电脑程序员而女人会是_”,这个工具会产生“家庭主妇”这样的答案。我们的团队让这个工具变得不那么带有偏见,从而使它产出性别中立的答案,这让我们的算法比人类来的更加公平。

一群来自微软研究员和哈佛大学的研究者最近设计了一款智能算法,这款算法在学习的中间阶段会直接读取“受保护的属性”比如种族或者性别,在这样的情况下,这款算法有时得出的决定会比人类判断具有更少的偏见。假想我们要为我所在的组织招聘一位新的管理者。我们单纯的招聘算法会学习我们过去优秀的管理者,并且按照这些特征来推荐候选人。假设招聘算法发现我们的候选人曾经有过雇佣历史的中断,而这样的中断与“成为好的管理者”是呈现负相关的。因为我所采集的数据中绝大多数管理者都是男性,这样得出的结论就会是有雇佣历史中断的男性会在管理岗位上表现的更差。

现在让我们考虑一下如果候选人是女性的情况。大多数女性都有可能会花几年的时间离开工作环境,来抚养孩子,并且在这个过程中她们学会如何平衡非常多的、互相间有竞争关系的事情,这样的经历会让她们重返工作环境的时候成为更好的管理者。但是我们单纯的招聘算法不会在数据中发现这样关于女性的细节,因为在训练数据中的男性数据在数量上占据着绝对的优势。我们的研究者发现如果他们将单纯幼稚的算法分别使用在不同的、依照受保护属性来划分的群体上,算法在做决定的过程中会显示出更少的偏见。在这样的情况中,算法不会惩罚雇用历史有中断而又追求管理者工作的女性。目前的法律是不允许在做招聘决策的过程中使用性别这一信息的,但是这一最新的结果可以为未来的监管提供新的视角。

一些人认为消除算法中的偏见是一件天生不能成功的事情,但是就像无可避免会牵涉到交通事故中的自动驾驶汽车那样,第一步是要设计一套比人类更安全或者更不具偏见的系统。使用数学来定义“公平的”决策指标的过程也迫使我们需要精确地做出在公平和准确之间的取舍,这样的取舍在以前有时会被决策者有意或无意的遮掩起来。这样的过程让我们重新审视什么叫做公平对待一切群体 —— 在一些情况下,要想公平对待不同的群体,学习他们不同的群体特征是必经之路。

在计算机科学,法律,道德的交汇处正在形成一个全新的领域。它不仅会引领我们创造更公平的算法,并且会引领我们找到可以追踪责任的算法,这样的算法会使一个决定背后都有哪些影响因素变的更透明。我们有足够的理由对这样的算法抱有期待!

via huffingtonpost,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

为推动无偏见的AI研究,IBM将发布大型人脸识别数据集

【概要】随着人工智能(AI)技术的广泛应用,确保AI技术没有偏见变得越来越重要。IBM计划发布一个大型的、无偏见的人脸图像数据集,以推动无偏见的人脸识别研究。

1073
来自专栏AI科技评论

AITech深圳召开,企业领军人齐聚首,五位IEEE Fellow现场带来主题演讲

AI 科技评论按,3 月 30 日,AITech(2018 国际智能科技峰会) 于深圳隆重召开。本次峰会由深圳市人民政府指导,深圳市龙岗区人民政府、中关村视听产...

1114
来自专栏数据猿

北京大学新媒体研究院教授刘德寰:未来数据分析是分析人

<数据猿导读> 北京大学社会学博士、北京大学新媒体研究院教授刘德寰在“无数据不智能”的主论坛上,围绕“有效大数据运算的两个路径假说及意义”进行演讲。他直言:目前...

2955
来自专栏AI科技评论

观点 | 集齐叶荫宇、蓝光辉、陈溪、李建、王子卓的大牛圆桌会,关于算法优化他们都聊了什么

6月24日下午,钛媒体和杉数科技主办的2017 AI 大师论坛在京举行,论坛邀请了五位算法优化、机器学习领域的顶尖教授、学者出席并发表学术演讲,他们分别是斯坦福...

3476
来自专栏人工智能头条

为何机器学习的黄金时代才刚刚来临

1072
来自专栏量子位

AI没有偏见?它们从人类的语言中学会了性别和种族歧视

李杉 编译自 IEEE Spectrum 量子位 出品 | 公众号 QbitAI 在性别和种族问题上,人工智能能够消除人类的偏见吗? 《科学》上发表的一项最新研...

3745
来自专栏ATYUN订阅号

微软改进Face API,显著降低肤色识别错误率

这一改进解决了最近的担忧,即商业上可用的面部识别技术更准确地识别出肤色较浅的人的性别,而不是深色的肤色,而且他们在肤色较浅的男性身上表现最好,而肤色较深的女性则...

1012
来自专栏新智元

【清华 AI 公开课】IJCAI理事长杨强:人工智能在企业的落地是一门大学问

1473
来自专栏新智元

【独家】贾佳亚教授正式加盟腾讯优图,计算机视觉大师的光荣与梦想

【新智元导读】 张潼、俞栋之后,腾讯又迎来一名AI大师,计算机视觉的领军者——香港中文大学终身教授贾佳亚正式全职加入。2017年5月13日,在腾讯正式宣布贾佳亚...

4037
来自专栏AI研习社

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么? | CCF-GAIR 2018

AI 研习社按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝...

982

扫码关注云+社区