前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >加利福尼亚大学开发模型,可减少AI数据集的性别偏见

加利福尼亚大学开发模型,可减少AI数据集的性别偏见

作者头像
AiTechYun
发布2018-09-26 11:48:45
3990
发布2018-09-26 11:48:45
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

编译:chux

出品:ATYUN订阅号

词嵌入是一种将单词和短语映射到实数向量上的语言建模技术,是自然语言处理的基础部分。这就是机器学习模型如何“学习”语境相似性和词语接近的重要性,以及它们如何最终从文本中提取意义。只有一个问题:数据集往往表现出性别刻板印象和其他偏见。可以预见的是,在这些数据集上接受训练的模型会发现甚至放大这些偏见。

为了解决这个问题,加利福尼亚大学的研究人员开发了一种新颖的训练解决方案,即“保留单词向量中的性别信息”,同时“强迫其他方面不受性别影响。”他们在一篇论文“Learning Gender-Neutral Word Embeddings”中描述了他们的模型。

“研究表明……从人类生成的语料库中学习的机器学习模型往往容易出现社会偏见,例如性别刻板印象,”该团队写道,“例如,’程序员’这个词在定义上对性别不敏感,但是在新闻语料库上训练的嵌入模型将“程序员”与“男性”更接近“男性”而非“女性”。这种偏见会严重影响下游应用。

他们的学习方案,他们称之为Gender-Neutral Global Vectors(GN-GloVe),识别性别中性词,同时学习词向量。该团队声称它优于以前的方法,因为它可以应用于任何语言,不会从单词中删除任何性别信息,并排除单词被错误分类并影响模型性能的可能性。

与GloVe和Hard-GloVe(两种常用模型)相比,GN-GloVe对新注释的数据集中的性别刻板词非常敏感。虽然GloVe的定型词如“医生”和“护士”,但GN-GloVe却没有。此外,它总体上表现出较少的偏见,在研究人员的测试中,GloVe倾向于将职业与特定的性别联系在一起,GN-GloVe的偏差减少了35%。

在未来,该团队计划扩展该方法以模拟其他单词属性,例如情绪。

论文:arxiv.org/pdf/1809.01496.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档