消除NLP中的刻板印象：程序员之于男性＝家政人员之于女性？

文章来源：企鹅号 - 机器之心

机器之心专栏

作者：钟瑞麒陈彦达施钧耀

随着人工智能的发展，自然语言处理技术已在翻译、

情感分析

等多个领域进步，逐渐提高相关应用的质量，并正在日益影响人们的社会生活。然而，科研人员发现在机器学习人类语言的同时，也习得了人类语言中隐藏的刻板印象。带有这样偏见的自动化算法如果被应用到实际生活中的话，很有可能扩大这种偏见，造成不良的社会后果。AI 科研群体非常关注这一问题，并在近几年来不断讨论、改进解决方案。这篇推送中笔者将会介绍两篇这一领域中的经典论文，借此希望可以让读者对于当前科研人员在消除算法刻板印象上的努力有一定的了解，也对 AI 和社会的关系带来一些思考。第一篇论文发现并消除了词嵌入中的社会偏见问题，第二篇论文发现并消除了视觉相关任务中使用结构预测模型中偏见放大的问题。

以下是笔者的观点和结论：

在用于训练人工智能的数据集中存在社会的已有偏见，这是普遍存在并需要大家关注、解决的问题。取决于不同应用，具体解决方案可能有所不同。

机器学习可以帮人们发现了原本大家以为在语库中不存在的偏见，而不会凭空创造偏见。

有时机器学习算法会放大已有的社会的偏见，值得警惕。

近期科研人员在推进算法公正／消除偏见方面做了颇多努力，相比几年前进展颇多；然而对于偏见如何产生的背后原理尚无定论，所以这个方向的科研还将继续。

论文 1：男人之于程序员相当于女人之于家政人员？消除词嵌入中的偏见 (Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings)

链接：https://arxiv.org/abs/1607.06520

摘要：盲目使用机器学习算法有很高的风险会放大训练数据中已有的偏见。词嵌入- 一种在机器学习和自然语言处理中流行的、用向量表示单词的方法 - 就很有可能带来这样的危险。我们发现即便是在谷歌新闻（这样正式的文体）上训练出的词嵌入都表现出了强到令人不安的性别刻板印象。广泛使用这样的词嵌入可能会放大这种偏见，因此这个问题值得我们关注。首先，从几何角度上来讲，性别偏见可以被一个（词嵌入所在向量空间的）方向所表示。其次，性别中立单词与定义中带有性别的单词线性可分。用这两个性质，我们提供了一种可以消除性别刻板印象的方法，例如「接待员」与「女性」的关联，而保留我们所希望的关联，例如「王后」和「女性」。我们定义了一种词嵌入中量化直接与非直接偏见的标准，并且开发了一个可以消除这类偏见的算法。在众包评估和标准数据集中，我们经验性地展示了我们的算法可以在显著降低性别偏见的同时保留很多它其他本来具有的性质，比如对相关概念的聚类和解决类比任务。我们提供的词嵌入可以被使用在各类任务中而不带有已有的社会偏见。

词嵌入 (word embeddings) 模型为一个个离散单词找到对应的实数向量，使得：1. 相近的词语对应相近的向量，比如「妈妈」和「母亲」作为同义词具有相近的实数向量。2. 可以通过向量的加减完成类比任务，比如：man - woman = king - queen (为方便格式排版，每个单词都是一个实数向量) - 对应常识中：男性之于女性（等于）国王之于王后。这个算法帮助更加有效的囊括了各个单词的含义，但同时也学到了我们不想要的性别偏见，比如 man - woman = computer programmer - homemaker。这有可能在应用中带来糟糕的社会后果：在一个假想的搜索应用中寻找和程序员相似的人的材料，算法可能会据此把男性排在女性之前。举个例子，一个程序员叫 Mary，另一个叫 John，他们作为程序员的专业水平一模一样；但是因为 John 这个名字更男性，算法有可能因此认为他的个人材料就更加接近程序员一点，导致 John 在之后和 Mary 的竞争中带有优势。然而，这并不公平，因为我们应该根据一个人的实际水平进行排序：把性别／名字直接作为排序依据显然是带有偏见的。

论文首先发现性别偏见几乎可以被一个（词嵌入所在向量空间的）方向 g 所表示；具体来说，所有与性别相关的关系，无论是定义上的还是偏见上的，如儿子之于女儿（定义），国王之于王后（定义）或棒球之于垒球（偏见）程序员之于家政人员（偏见），这些单词对应的向量的差都基本与 g 平行。据此，这篇论文量化地定义了两种偏见：1. 直接偏见：一个本应性别中性的词在 g 方向上的投影 2. 隐形偏见：两个词之间的相似度多大程度可以由性别 g 方向上的投影解释（比如」接待员「和「垒球」很相似，因为它们都在 g 方向上有很强的女性刻板印象）。文章提出的解决方案也很直截了当：对于本应性别中立（比如职业等）的词，直接把 g 分量减掉，留下与 g 垂直的部分；对于定义中不性别中立的词（如女皇、儿子）等，对每组只包括性别差异的词（如，）取平均值再按比例加上本来在 g 上的投影（具体公式详见论文第 12 页 step 2a）。这样的算法可以消除大多数直接／间接偏见，但同时保持词嵌入可以做类比任务的性质。

笔者认为，在这篇论文发表之前，事实上并没有多少人会觉得在谷歌新闻这样正式的文体中存在多少性别偏见，而机器学习算法却发现了它。尤其有趣的是，浅层的共同出现数据（「co-occurence statistics」）并不能解释词嵌入中所有的偏见：」男性护士「这个词组出现频次要远大于「女性护士」，但依然词嵌入中「护士」依然带有很强的和女性的关联性。这样来看，机器学习算法其实帮助人们发现了本来大家以为在语库中不存在的偏见。另一方面，论文发现了 g 分量这一个和性别偏见有关的分量，但修复了这个问题并不代表词嵌入中的偏见消失了 - 这可能只是众多问题中的一部分，偏见有可能以其它非线性的方式出现：在 g 方向上没有偏见并不代表偏见不会以其他方式在词嵌入中存在。在理想情况下，我们应该从训练过程和数据中偏见产生的第一性出发 (first principle) 去消除偏见，而不是在训练完之后发现症状并解决症状，因为很有可能「治标不治本」（比如使用那些能解释为什么词嵌入向量加减能完成类比任务的模型来从理论上根本去除偏见）。

论文 2: 男性也喜欢购物：用语库层面的限制减少性别偏见的放大 (Men also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraint)

链接：https://arxiv.org/abs/1707.09457

摘要：语言文字越来越多地被用来定义各种各样丰富的视觉识别任务；这些任务的图片数据集一般从网上采集。在这些任务中研究者经常使用结构化预测模型 (structured prediction models)，因为其可以很好的利用标签和图片的相关性；但这些模型却无意间增加了习得网络数据集中的社会性偏见的风险。在这篇论文中，我们主要研究了多标签物体分类 (multi-label object classification) 和视觉语义标注 (visual semantics labelling) 中的数据和模型。我们发现 a) 这些数据集中有非常显著的性别偏见 b) 在这个数据集上训练的模型会进一步放大这些偏见。举个例子，在训练数据集中做饭有 33%(absolute percentage) 更多可能和女性有关；而当训练好的模型在测试时，该差别得到了放大，高达 68%。我们提出了一种加入语库层面限制的方法来校正已有的结构化预测模型，并用拉格朗日松弛技术 (Lagrangian Relaxation) 对整个测试集一起进行预测。我们的算法表现相比改进前没有任何下降，但在多标签物体分类和视觉语义标注的两个问题上将偏见放大分别减少了 47.5% 和 40.5%。

视觉语义标注 (visual semantics labelling) 是指，给定一张图片，机器算法给出图片的描述「谁在哪里怎样干什么」（见图片）。比如第一张图中：一位 [女性]（人物）在 [厨房]（地点）手拿 [抹刀]（工具），用 [炉灶]（加热工具）热 [通心粉]（食物）；算法需要给出」[]」中的文字内容。然而这项任务中有两个潜在问题：1. 数据本身有一定性别偏见，比如三分之二的情况下正在做饭的是女性。（比如在下图中五分之三的做饭的人是女性）2. 算法可能会放大这种偏见；一个训练好的 Conditional Random Field（条件随机场）会预测 84% 的做饭的人是女性，放大了训练数据中三分之二的比例。（比如在下图中五分之四的算法预测是女性，尽管图四种正在烧饭的是男性）。

为解决这一问题，作者首先量化定义了数据中的偏见和算法对于偏见的放大。首先作者假设训练和测试概率分布相近。在以上做饭的例子，有 66% 的数据中是女性，而预测中 84% 的是女性，则数据中的偏见则被定义为 66%，算法偏见的放大量则是 84%-66%=28%。为解决这一问题，作者提出在对测试集进行预测的时候对所有数据一起进行预测，来保证测试集上性别的比例和训练集中的比例一样（因为已经假设了训练和测试的概率分布相同）；这也就是文章标题中「语库层面限制」的意思。从技术细节上来说，作者将「保证测试集上性别比相同」这一条件作为线形约束加在预测过程中，并用拉格朗日松弛技术 (Lagrangian Relaxation) 进行线形优化（详见论文公式 3）。作者发现使用这个算法保证了偏见基本没有被放大，而且总体算法准确率也没有下降。

笔者认为，发现数据中的偏见并非难事，但是发现了算法会将其放大偏见、并提出了一种不伤害总体准确率的修改方案则在当时非常具有创新性，调整了大家对于算法偏见的理解：1. 算法虽然不会凭空创造偏见，但也不一定会保持训练集中的偏见；很有可能它会放大这种偏见。2. 消除算法偏见不一定会导致准确率下降。这篇论文也因此被评为 EMNLP2017 Best Paper。然而，「强行」保证在测试集上保持和训练集上同样的偏见这一做法并不一定能被广泛使用，因为现实生活中训练和测试集概率分布很有可能不同，而且在理想情况下算法应该只依据一张图片而不是同时考虑其他多个图片来给出预测。

结语：以上仅仅是 NLP Fairness 领域中众多优秀论文中的两篇，科研人员也在其他应用中作出了很多消除社会偏见的努力，比如机器翻译、自动作文评分系统等；性别偏见也只是诸多刻板印象中的一种，其他的刻板印象包括民族、宗教和地域等；另外，关于偏见如何产生、是否应该在一个应用中消除偏见、以及应该以什么样的方式消除偏见，学界现在都还尚无定论。诸多有关社会偏见的挑战依旧未被解决，这一领域的科研也将不断继续下去。

作者简介：钟瑞麒、陈彦达、施钧耀均为哥伦比亚大学计算机系本科生

本文为机器之心专栏，转载请联系原作者获得授权。

------------------------------------------------

发表于: 2019-01-192019-01-19 11:21:08
原文链接：https://kuaibao.qq.com/s/20190119A0DK6100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

消除NLP中的刻板印象：程序员之于男性＝家政人员之于女性？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐