AI表现出种族或性别歧视

AI表现出种族或性别歧视

全文共2343字,阅读时长约为4分钟图片来源|网络出品|先声会本文节选、编译自Nature平台的文章AIcanbesexistandracist—it’stimetomakeitfair,原文作者JamesZou&LondaSchiebinger。谷歌翻译在将西班牙语新闻翻译成英语时,通常将提及女人的句子翻译成“他说”或“他写道”。

图片来源:iStock/Getty(左图)PrakashSingh/AFP/Getty(右图)在有偏差的数据集上训练出的算法通常只能将左边的图片识别为“新娘”。除此之外,人们还发现了其他很多人工智能(AI)系统性地歧视特定人群的例证。决策偏见并不是AI独有的问题,但由于AI的应用范围越来越大,解决AI偏见至关重要。01导致AI产生偏见的原因导致AI产生偏见的一个主要因素是训练数据。

通常来说,会有一些人群被代表过度,而另一些则代表不足。ImageNet推动了计算机视觉研究,但是其中超过45%的数据来源于美国,而美国人只占世界人口的4%。相反,中国和印度加起来只占其中3%的数据量,而两国人口却占了世界人口的36%。

图片来源:《自然》杂志由此看出,这些动物体内除了大脑,还有一个独立的系统来处理身体的变化。这些现象引发了我们的思考:机器人体内可以构建这样的系统吗?答案是——可以。缺乏地理上的多样性可以在一定程度上解释为什么计算机视觉算法会把传统的身着白色婚纱的美国新娘标注为“新娘”、“礼服”、“女人”、“婚礼”,而印度新娘的照片则会被标注为“表演”和“戏服”。

偏见的另一个来源可以归于算法本身。一个常见的机器学习程序会试图最大化训练数据集的整体预测准确率。如果训练数据集中某类人群的出现频率远多于另一人群,那么程序就会为占比更多的人群进行优化,这样才可以提高整体的准确率。有缺陷的算法还会造成恶性循环,使偏见越发严重。举例来说,使用统计方法训练出的系统,例如谷歌翻译,会默认使用男性代词。这是因为英语语料库中男性代词对女性代词的比例为2:1。

02数据偏差来源于制度和社会数据集中的偏差常常体现出了制度基础和社会权力关系中更深、更隐蔽的不均衡。例如,维基百科看起来是一个丰富多样的数据源,但是该网站上的人物页面里只有18%是女性。在关于女性的条目中,链接到男性条目的数量远比男性条目链接到女性条目的数量要多,因此搜索引擎里就更容易找到关于男性的条目。女性条目里还包含了更多的伴侣和家人信息。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180917A21DKW00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券