加利福尼亚大学开发模型,可减少AI数据集的性别偏见

编译:chux

出品:ATYUN订阅号

词嵌入是一种将单词和短语映射到实数向量上的语言建模技术,是自然语言处理的基础部分。这就是机器学习模型如何“学习”语境相似性和词语接近的重要性,以及它们如何最终从文本中提取意义。只有一个问题:数据集往往表现出性别刻板印象和其他偏见。可以预见的是,在这些数据集上接受训练的模型会发现甚至放大这些偏见。

为了解决这个问题,加利福尼亚大学的研究人员开发了一种新颖的训练解决方案,即“保留单词向量中的性别信息”,同时“强迫其他方面不受性别影响。”他们在一篇论文“Learning Gender-Neutral Word Embeddings”中描述了他们的模型。

“研究表明……从人类生成的语料库中学习的机器学习模型往往容易出现社会偏见,例如性别刻板印象,”该团队写道,“例如,’程序员’这个词在定义上对性别不敏感,但是在新闻语料库上训练的嵌入模型将“程序员”与“男性”更接近“男性”而非“女性”。这种偏见会严重影响下游应用。

他们的学习方案,他们称之为Gender-Neutral Global Vectors(GN-GloVe),识别性别中性词,同时学习词向量。该团队声称它优于以前的方法,因为它可以应用于任何语言,不会从单词中删除任何性别信息,并排除单词被错误分类并影响模型性能的可能性。

与GloVe和Hard-GloVe(两种常用模型)相比,GN-GloVe对新注释的数据集中的性别刻板词非常敏感。虽然GloVe的定型词如“医生”和“护士”,但GN-GloVe却没有。此外,它总体上表现出较少的偏见,在研究人员的测试中,GloVe倾向于将职业与特定的性别联系在一起,GN-GloVe的偏差减少了35%。

在未来,该团队计划扩展该方法以模拟其他单词属性,例如情绪。

论文:arxiv.org/pdf/1809.01496.pdf

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

论文Express | 把你的口哨变成莫扎特风,Facebook发布通用音乐迁移网络

1834
来自专栏机器之心

专栏 | 深度学习在NLP中的运用?从分词、词性到机器翻译、对话系统

竹间智能专栏 作者:自然语言与深度学习小组 自然语言是人类知识的抽象浓缩表示,而自然语言理解是人工智能研究领域中极具挑战的一个分支。上次,《自然语言处理在 20...

41211
来自专栏量子位

绿幕通通扔掉 ੧ᐛ੭ | 谷歌AI实时「抠」背景

大场面的科幻动作片,拍摄过程肯定离不开绿幕。 ? 制作过程更加磨人。 抠绿+后期要做到完美(空间位置关系、光影关系),不仅要求细心,还得堆大量时间。 为了让影视...

3764
来自专栏大数据文摘

神经网络的叛离:32年前从心理学与生理学分离的瞬间

这一算法由被誉为深度学习之父的Geoffrey Hinton提出。1986年,他发表了名为Learning representations by back-pr...

1012
来自专栏互联网大杂烩

评价模型数据挖掘之评价模型

是定性与定量相结合的多准则决策、评价方法。将决策的有关元素分解成目标层、准则层和方案层,并通过人们的判断对决策方案的优劣进行排序,在此基础上进行定性和定量分析。...

1972
来自专栏新智元

【干货】自然语言处理深度学习活跃研究领域概览 (43PPT下载)

【新智元导读】本文是纽约大学助理教授 Sam Bowman 关于自然语言处理中深度学习活跃领域的课程讲义PPT。对深度学习NLP领域最近较为活跃的研究进行了综述...

3577
来自专栏AI科技大本营的专栏

当这位70岁的Hinton老人还在努力推翻自己积累了30年的学术成果时,我才知道什么叫做生命力(附Capsule最全解析)

Hinton,这个以“深度学习之父”和“神经网络先驱”响彻AI领域的名字,他的一举一动,都是热点导向。 当我们远望一位顶级人物时,除了他的学术,也许,我们更...

3916
来自专栏杨熹的专栏

纯粹的数学之美

当你爱上数学时,你可能愿意一辈子去研究它而不觉得厌烦,因为它的发展集成了无数人的贡献,自身是博大精深的,但输出却是简单的,简单到一个公式可以描述一个现象,一个方...

36110
来自专栏应用案例

实现三遍决策树,你就会想出更快的算法!

背景 决策树(Decision Tree)可以说是当下使用最为广泛的机器学习模型,任何一个刚刚学习人工智能或者数据挖掘的同学可能都接触过实现决策树的课程作业。 ...

22110
来自专栏PPV课数据科学社区

空间数据挖掘常用的17种方法

PPV课大数据学习社区如果你对大数据感兴趣;如果你想转行做大数据;如果你想了解大数据是怎么改变我们生活,请点标题下蓝字关注PPV课大数据 ? 问题1:空间数据挖...

3759

扫码关注云+社区

领取腾讯云代金券