观点 | 微软科学家谈机器学习的公平性问题:对性别和种族避而不谈并不是一个好方法

AI 科技评论按:ACM Fellow、微软杰出科学家和管理总监 Jennifer T. Chayes 近日以 ACM 的名义发表了一篇文章,介绍了机器学习中的公平性问题和现阶段研究人员们的应对方式。AI 科技评论编译如下。

机器学习是计算机科学的一个分支,通过识别在数据中存在的模式来发展算法。举例来说,我们的个人助手,如Cortana, Siri 和 Alexa, 会学习如何识别我们在说什么,并且运用与上百万人的交流来学习如何最好地回应我们的问题。

当计算机变得越来越智能的时候,一些数据科学家会因为发现他们的算法变得有性别歧视或者种族主义的倾向,而困惑不已。但是这样的现象是不该令人惊讶的,因为这些算法是经过社会数据的训练而成的,所用到的社会数据本身就是带有社会偏见,在训练时所用的评估指标会让算法会放大这些偏见。

比如,如果一个人单纯地训练一款机器学习算法来筛选简历,并且目标是根据一份工作之前的雇佣记录来挑选最合适的候选人,那么即使算法被清晰明确地指示去忽略“受保护的属性”比如种族和性别,结果还是可能会带有种族偏见或者性别偏见的。这是因为种族和性别是与其他“未受保护”信息比如姓名有关联的,而这些“未受保护”的信息是算法可以使用的。在招聘过程中,我们知道招聘人员倾向于做出与算法一样的选择,他们不会被告知申请者的性别,但是他们会认出一个女性名字并不会面试她,因为之前被雇佣的多数都是男性。

总体来讲,设计周到的算法时,即使训练的数据是有偏见的,计算机仍旧可以变得比一般人类决策者更加的公平。就如不论我们的孩子见到什么人做哪些工作,我们都会教导他们“任何人都有潜力做任何工作”,我们也可以教会智能的算法如何去忽视训练数据中的偏见。幸运的是,随着计算机变得越来越聪明,教他们这样的事情变得越来越简单。计算机现在能够理解什么是种族,什么是性别,并且社会数据也可以被用来自动地揭示和消除偏见。

目前的系统有时会表现出来非常强烈的偏见。当哈佛教授Latanya Sweeney将她自己的名字输入搜索引擎的时候,她收到一则广告写着“Latanya Sweeney曾被逮捕过吗?”并且会有偿地提供背景调查。背景调查的结果是Sweeney博士没有被捕记录,就像大多数杰出的科学家那样。这则广告明显是非常不合理的,并且是对Sweeney博士带有歧视性质的。如果潜在的雇主把Sweeney博士的名字输入搜索引擎中,他们也许会因为见到这则广告而立刻就不再考虑雇佣她。此外,Sweeney博士证明了,如果搜索比如Latanya这样更像黑人的名字,你会有比搜索不具种族特征的名字时更大的机会被展示这则“被逮捕过吗?”的广告。

好消息是,我们有很多的计算机科学家都非常关心机器学习算法的公平性,并且已经开发出了方法来让这些算法相比人类来的更不带有偏见。几年前,一组来自微软研究员和波士顿大学的研究者发现了在许多搜索引擎中天生就存在的性别歧视现象。当被要求去完成以下句子时,“男人会是电脑程序员而女人会是_”,这个工具会产生“家庭主妇”这样的答案。我们的团队让这个工具变得不那么带有偏见,从而使它产出性别中立的答案,这让我们的算法比人类来的更加公平。

一群来自微软研究员和哈佛大学的研究者最近设计了一款智能算法,这款算法在学习的中间阶段会直接读取“受保护的属性”比如种族或者性别,在这样的情况下,这款算法有时得出的决定会比人类判断具有更少的偏见。假想我们要为我所在的组织招聘一位新的管理者。我们单纯的招聘算法会学习我们过去优秀的管理者,并且按照这些特征来推荐候选人。假设招聘算法发现我们的候选人曾经有过雇佣历史的中断,而这样的中断与“成为好的管理者”是呈现负相关的。因为我所采集的数据中绝大多数管理者都是男性,这样得出的结论就会是有雇佣历史中断的男性会在管理岗位上表现的更差。

现在让我们考虑一下如果候选人是女性的情况。大多数女性都有可能会花几年的时间离开工作环境,来抚养孩子,并且在这个过程中她们学会如何平衡非常多的、互相间有竞争关系的事情,这样的经历会让她们重返工作环境的时候成为更好的管理者。但是我们单纯的招聘算法不会在数据中发现这样关于女性的细节,因为在训练数据中的男性数据在数量上占据着绝对的优势。我们的研究者发现如果他们将单纯幼稚的算法分别使用在不同的、依照受保护属性来划分的群体上,算法在做决定的过程中会显示出更少的偏见。在这样的情况中,算法不会惩罚雇用历史有中断而又追求管理者工作的女性。目前的法律是不允许在做招聘决策的过程中使用性别这一信息的,但是这一最新的结果可以为未来的监管提供新的视角。

一些人认为消除算法中的偏见是一件天生不能成功的事情,但是就像无可避免会牵涉到交通事故中的自动驾驶汽车那样,第一步是要设计一套比人类更安全或者更不具偏见的系统。使用数学来定义“公平的”决策指标的过程也迫使我们需要精确地做出在公平和准确之间的取舍,这样的取舍在以前有时会被决策者有意或无意的遮掩起来。这样的过程让我们重新审视什么叫做公平对待一切群体 —— 在一些情况下,要想公平对待不同的群体,学习他们不同的群体特征是必经之路。

在计算机科学,法律,道德的交汇处正在形成一个全新的领域。它不仅会引领我们创造更公平的算法,并且会引领我们找到可以追踪责任的算法,这样的算法会使一个决定背后都有哪些影响因素变的更透明。我们有足够的理由对这样的算法抱有期待!

via huffingtonpost,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

CCAI2017 | 智能金融论坛:听大佬们讲人工智能在金融领域的那些事儿

文/CSDN焦燕 整理/AI科技大本营(rgznai100) 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集...

3469
来自专栏AI科技评论

KDD 2017最佳论文得主叶艳芳专访:AI时代的互联网安全 – 攻与防的黑白博弈

AI科技评论了解到,叶艳芳博士一直以来的主要研究领域有互联网安全、机器学习和数据挖掘,而且她先在业界公司工作了6年,然后离开业界来到学校开展安全研究。作为安全领...

38810
来自专栏AI科技评论

学界 | DeepMind眼中的神经科学研究:人工智能进步的另一个重要支点

AI 科技评论按:继神经科学家成为机器学习领域会议的邀请演讲的常客以后,DeepMind AI 博客今天也发出了一篇文章讲述他们对人工智能研究和神经科学研究协作...

33611
来自专栏IT大咖说

从算法到应用,新零售背后的推荐系统

内容来源:2018 年 05 月 26 日,袋鼠云高级算法专家尼奥在“AICAMP人工智能沙龙(杭州)”进行《新零售推荐系统:从算法到应用》演讲分享。IT 大咖...

904
来自专栏量子位

刚刚,吴恩达讲了干货满满的一节全新AI课,全程手写板书

夏乙 编译整理 量子位 出品 | 公众号 QbitAI ? 给吴恩达三块白板和一支马克笔,听他讲一节精彩的课。 刚刚,在O’reilly举办的AI Confer...

3417
来自专栏大数据文摘

Teradata CTO:将筛选数据的时间用来决策,机器学习如何改变商业决策模式

1924
来自专栏人工智能头条

搜索,大促场景下智能化演进之路

1784
来自专栏新智元

盖茨、扎克伯格都看好的AI智适应教育,松鼠AI聚拢顶尖技术专家

1655
来自专栏大数据挖掘DT机器学习

一个资深数据人对 数据挖掘 的解读

数据分析网 http://www.afenxi.com/post/7348 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个...

3219
来自专栏ATYUN订阅号

微软宣布在中英文机器翻译方面取得重大突破

AiTechYun 编辑:nanan 微软本周三宣布,他们已经创造出了第一台机器翻译系统,能够以与人一样的准确度将新闻稿件从中文翻译成英文。该公司表示,他们对该...

3347

扫码关注云+社区