技术行业缺乏多样性,AI 算法也会戴上“有色眼镜”

「她可不是程序员」

在 Google 旗下的众多服务中,Google Translate 是最早使用人工智能算法的应用之一。

具体而言,Google Translate 利用神经机器翻译系统(GNMT)取代原有的基于短语的机器翻译(PBMT),最终让翻译结果更加地道也更加符合目标语言的上下文环境和语言习惯。

但最近却有人发现,即便是拥有神经网络加持的 Google Translate 在特定情况下也会「犯迷糊」,比如下面这两种情况:

由于马来西亚语和土耳其语中男性和女性的名词和代词是通用的,也就是说,我们在阅读这两种语言的文字时需要根据上下文自行进行性别区分。正是因为这个原因,当我们将「她是个程序员」这句话翻译为马来语和土耳其语、再将其翻译回原语言时,就会发现原句的主语已经悄然从「她」变成了「他」

有人也许会说这样的操作对 Google Translate 是不是太苛刻了,实际上并不是这样,将没有性别区分的语言翻译为有性别区分的语言时,神经网络算法大可以将这句话译作「她/他是个程序员」。

所以问题正就在于此,Google Translate 似乎认为程序员一般都是男的。

AI 算法的性别偏见

Google Translate 仅仅是过去这些年算法表现出性别偏见的众多案例中的一个。

此前,卡内基美隆大学(Carnegie Mellon University)的研究人员还通过模拟不同使用者的上网习惯分析了 Google 广告的投放情况,发现高薪工作在男性用户群体中的曝光率远远高于女性用户,从而间接证实了 Google 网络投放机制中的性别歧视问题。

无独有偶,如果你在 Google 上搜索「成功人士」的关键字,出现的搜索建议大部分是男性、找到的图片也大多是男性。

不管是翻译、广告投放还是搜索,当下这些技术几乎都或多或少地用到了 AI 算法。而无论算法或机器,它们本身是不具备产生认知偏差的主观条件的,

所以问题还是出在人身上,更具体地说,问题出在开发和优化这些算法的开发者和开发手段上。

以图像识别技术(image recognition)为例,和其他研发该技术的大公司一样,Google 最初在训练自家图像识别算法时所用到的数据也来自业内著名人脸数据集 LFW(Faces in the Wild)。

而有分析报告显示,这个常常被各大人脸识别算法用来进行算法训练的人脸数据库中 83% 的人脸都来自白人同时 78% 都是男性。也就是说,白人男性是这些人脸识别算法在训练过程中所用到的主要数据来源。

同样的道理也适用于自然语言处理(NLP)技术。和人脸识别类似,NLP 也需要大量的文本信息来进行自然语言处理训练。当这些用于训练的文字内容大部都与「男性」「程序员」 这类词语相关时,文章开头所提到的现象就自然出现了:在 Google Translate 的世界里时不存在女性程序员的。

男性之于程序员正如女性之于……?

波士顿大学的研究人员曾经使用过一种特殊的方法来研究算法中的性别和种族歧视现象。

他们以海量 Google 新闻资讯作为基础,从中挑出「男性之于 A 正如女性之于 B」这样的比喻句来对一个 AI 算法进行训练。这个算法通过将男性、女性、A、B 这几类词汇在所出现上下文语境中进行嵌套,成功在这几个词语之间建立起了一套完整的关联认知。

最终,这个算法终于能够理解基本性别差异的存在了。比如,当研究人员输入「男性之于国王」这样的语句时,它能够给出「女性之于王后」这样的反馈。能够对性别进行区分并建立不同的联系,这个 AI 算法和上面提到的 Google Translate、广告投放和 NLP 相比本身已经有相当大的进步了。

不过当研究人员给出「男性之于程序员」这个例子时,猜猜这个 AI 算法给出了怎样的回应?

「正如女性之于家庭主妇」

严肃对待 AI 算法中的偏差问题

在飞利浦数字化架构师莫雷诺(Alejandra Leon Moreno)看来,我们必须严肃对待当下很多 AI 算法中存在的性别歧视问题。

以自然语言处理(NLP)为例,目前,我们正在研发一个能够依据用户评论和电话反馈来推测用户情绪的 AI 算法,如果算法在训练和架构中引入了类似的偏差,那这个系统在理解外地人或女性口音的时候自然会出现这样那样的问题。

如果将来类似的系统被用于医疗,那自然也就意味着我们不能平等地享用这些基于 AI 算法的医疗服务——数据训练中极小的偏好或倾向,都将给最终成品带来毁灭性的影响。

问题在于这样的偏差也很难被抚平,毕竟像飞利浦这样的公司不会为了得到更多女性的使用反馈而刻意降低相关产品的质量,这是不理性也不现实的。

那么该如何解决这个问题?

有的人认为,我们需要通过第三方机构对这类事件进行监管。

2016 年 11 月,一位来自麻省理工学院(MIT)的研究生 Joy Buolamwini 因为肤色太深无法被面部识别系统识别而创办了算法正义联盟(Algorithmic Justice League),并希望通过这个独立组织帮助那些同样受到技术不公平对待的人群发声。

但更加根本的解决方案其实在于,我们应该丰富技术行业的多样性。这不仅仅意味着要让更多有才华女性坐下来写代码——更重要的是,优秀的个体应该在工作中获得与她/他们能力相称的发言权和决定权。

正如 Google Cloud 首席科学家李飞飞在接受Backchannel 采访时所说,如果 AI 领域长久以往地缺乏多样性,没有更多女性和更多人种的工作者加入进来,我们算法中所存在的这些偏差、歧视将会在一、二十年后造成不可挽回的灾难。

借助生物科学、人工智能和机器人等前沿技术,我们正逐渐接近「造物者」的身份。而如果我们的包容性中本身就带有局限,那这些局限性就会在我们所创造出来的东西中被无限放大。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180112G0PKN400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券