AI没有偏见?它们从人类的语言中学会了性别和种族歧视

李杉 编译自 IEEE Spectrum 量子位 出品 | 公众号 QbitAI

在性别和种族问题上,人工智能能够消除人类的偏见吗?

《科学》上发表的一项最新研究给我们泼了一盆冷水。普林斯顿大学信息技术政策中心计算机科学家Arvind Narayanan和他的同事们发现,机器学习算法会轻易模仿其训练数据集中隐含的偏见。

他们从网上用爬虫收集了220万词的英语文本,用来训练一个机器学习系统。结果,系统也会展示出了与这些文本相同的偏见。

在较为中性的例子中,人工智能系统更有可能将“花朵”和“音乐”与“愉快”联系起来,而“昆虫”或“武器”等不太愉快的词不太可能建立这种联系。但人工智能也也更有可能将欧洲裔美国人的名字与“快乐”联系起来,非洲裔美国人的概率较低。同样地,这种算法往往会将“妇女”和“女孩”与艺术关联,而不会与数学关联。

“在机器学习执行的所有感知任务中,都应该担心它是否会体现人类的偏见。”Narayanan说,“这可能会进一步创造一种反馈回路,延续这些偏见。”

为了展示自然语言学习所能引发的偏见,Narayanan和他的同事根据心理学家揭示人类偏见时使用的内隐联想测验(IAT),创造了新的统计学测验。他们的成果发表在2017年4月14日出版的《科学》杂志上,这也是首份展示“文字嵌入”(word embedding)中体现的人类偏见的科研成果。

所谓“文字嵌入”,其实是一种普遍应用于机器学习和自然语言处理过程的统计建模技术。文字嵌入需要了解一个人的语言在空间上的不同点,并通过重现几何关系的方式来分析这些点之间的语义关系。

犹他大学计算机科学家Suresh Venkatasubramanian表示,人工智能从训练数据集中学会了偏见或许算不上令人震惊的发现,但这项研究驳斥了之前的一个论调:人工智能天生比人类更加客观。

由于人工智能在硅谷和世界各地的科技巨头中十分流行,所以这项结果意义重大。

要理解潜在的影响,可能需要阅读一下普利策奖获奖文章《机器偏见》(Machine Bias),这个系列的文章展示了原本用来预测潜在犯罪分子的电脑程序是如何对黑形成偏见的。有鉴于此,一些研究人员考虑在部署机器学习算法的过程中,识别并减轻人类偏见所产生的负面影响。

“训练流程和训练数据的好坏决定了最终的算法。”Venkatasubramanian说,“它们不会生来就自动获得客观立场。”

哈弗福特学院计算机科学家Sorelle Friedler表示,这项新的研究迈出了重要的一步,揭示出各种机器学习中可能存在的语言偏见。作为机器学习公平、负责、透明小组的组织者,Friedler指出,过去的研究主要调查了已经使用的特定机器学习算法的偏见。

“我很喜欢这项研究,因为他们没有试图调查单一的‘活跃’系统,而是分析了很多活跃系统的一块基石。”他说。

Narayanan和他在普林斯顿大学及英国巴斯大学的同事首先采用了文字嵌入联想测验(WEAT),以此复制以往的心理学研究中的种族和性别歧视例子。但他们还开发了文字嵌入事实联想测验(WEFAT),不仅仅局限于文字联想。第二项测试显示,机器学习语言联想的统计学强度,与女性2015年在50种不同工作中占据的比例相关性极强。

就连研究人员都对语言使用和美国劳工部统计数据之间的强相关性感到意外。“完全根据语言使用来看,考虑职业与性别词汇的使用关系,我们发现女性在任何一个职位上的相关性都达到90%。”Narayanan说。

针对这项新研究开发的统计测试,不仅暴露了机器学习领域的潜在偏见问题,还可以成为一项有用的工具,用来分析特定社会偏见在文字发展史上的演变过程。正如研究人员证明的那样,这些测试也有助于心理学实验室测试所揭露的偏见与现实世界的实际影响之间的相关性。(Narayanan将此归功于他的同事多样化的学术背景,该团队包括机器学习专家Aylin Caliskan和认知科学家Joanna Bryson。)

使用机器学习技术——尤其是深度学习技术——的科技巨头和创业公司,都应该尽快克服其人工智能系统的潜在偏见。Friedler解释道,人们现在逐步意识到这个问题,并且开始展开针对性的讨论,但尚未就如何处理偏见达成系统性的一致意见。

可以考虑从数据集中去掉偏见因素,但可能因此失去一些有用的语言和文化意义。人们需要作出艰难的道德抉择,寻找具体的偏见和应对策略,避免这些偏见对日渐强大、越发普及的人工智能系统产生负面影响。

“我们需要判断哪些偏见在语言上有用,哪些会产生社会问题。”Friedler说,“如果我们认为存在社会问题,就应该有意识地移除这些信息。”

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-04-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

科学家想这样给人工智能“去偏”……

人工智能本来并不存在偏见,它不会因为无法通过逻辑来解释的理由而“想”某些东西是真的或假的。不幸的是,从创建算法到解释数据,机器学习中存在着人类的偏见,并且直到现...

2877
来自专栏ATYUN订阅号

微软改进Face API,显著降低肤色识别错误率

这一改进解决了最近的担忧,即商业上可用的面部识别技术更准确地识别出肤色较浅的人的性别,而不是深色的肤色,而且他们在肤色较浅的男性身上表现最好,而肤色较深的女性则...

1052
来自专栏新智元

AI算法透明不是必须,黑箱和可解释性可简化为优化问题

来源:nytimes、wired 作者:Vijay Pande、David Weinberger 【新智元导读】由于AI算法内部的运作往往是不透明的,AI的黑箱...

3638
来自专栏数据冰山

用数据的方式来撕逼:LOL vs DOTA2

我写这篇文章的时候克服了两个困难: LOL和DOTA2撕了这么多年,读者是身经百战见的多了,很容易产生审美疲劳。——好在本文大规模使用了数据分析武器,目的就是打...

2915
来自专栏AI科技评论

人工智能之神经网络特训班课程过半,这些内容关键点你不能错过

2016 年,谷歌 AlphaGo 下围棋战胜了人类世界冠军李世石;美国白宫发布了人工智能白皮书;微软研发的 AI 语音识别首次超过了人类...人工智能一跃成为...

3469
来自专栏顾宇的研习笔记

记武汉2016年第一期学习力提升工作坊——MVP验证篇工作坊总体设计

当开始有了第一课的时候,剩下的课程我还没有准备好。只通过一些粗浅的想法形成了课程内容,主要根据学员的第一次的反馈来规划下一次课程的内容。并根据反馈对相应的课程进...

721
来自专栏大数据挖掘DT机器学习

为何机器学习的黄金时代才刚刚来临

虽然已被关于神经网络、人工智能和机器学习的热烈讨论所包围,但很多人都知道,这些方法根本没有什么新颖的东西。让人疑惑的是,这些算法和方法早在几十年前就已经存在了...

3306
来自专栏AI科技评论

观点 | 微软科学家谈机器学习的公平性问题:对性别和种族避而不谈并不是一个好方法

AI 科技评论按:ACM Fellow、微软杰出科学家和管理总监 Jennifer T. Chayes 近日以 ACM 的名义发表了一篇文章,介绍了机器学习中的...

3768
来自专栏IT大咖说

AI还有什么不会的?机器人写稿技术应用

摘要 全球人工智能与机器人峰会CCF-GAIR大会上,嘉宾分享了机器写稿的背景和现状,对于未来,他认为机器写稿不光是在媒体行业,也会跟一些游戏行业和情报行业合作...

4315
来自专栏灯塔大数据

原创译文 | 微软放大招!面部识别无歧视,Face API更加精准识别人类肤色

微软近日在博客文章中宣布了Face API的重大更新,它改进了面部识别平台识别不同人种性别的能力,此前,这一直是计算机视觉平台面临的挑战。

934

扫码关注云+社区