首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型偏见有多严重?柏林洪堡大学发布新工具OpinionGPT,你的AI真的公正吗?

大数据文摘受权转载自夕小瑶科技说

作者 | 谢年年

近年来,指令调优的大型语言模型(LLM)在各个问答任务上表现出色。然而,受训练数据的影响,这些模型的回答可能存在隐含的偏见和观点。比如下面这个问题,

列举两个著名的电视新闻频道。

使用不同训练数据微调的模型出了截然不同的答案:使用政治保守主义的数据训练的模型提供的答案是“Fox News”、政治自由主义的数据得出的结果是“the Verge”、美国人偏向“CNN”,而德国人选择“Tagesschau”偏多。

为了让研究人员更直观的探索训练数据给大模型带来的偏见,柏林洪堡大学的研究团队发布了一个名为OpinionGPT的语言模型,模型使用LLaMa对来自Reddit的精选数据进行全面微调,包含了政治、地理、性别和年龄等特定社会维度的数据。从特定人群中收集偏见数据训练模型,使偏见明确和透明,而不是压制它们,以更好地研究模型的公平性。

除此之外,该团队还发布了一个Web演示界面,用户通过演示界面提问并选择他们想要调查的各种偏见和观点。通过该工具,研究人员能够研究模型的语言、思想和沟通如何受到不同偏见和观点的影响,并提高对人工智能中偏见的认识。

论文链接:

https://arxiv.org/pdf/2309.03876.pdf

演示界面:

https://opiniongpt.informatik.hu-berlin.de/

指令调优数据集

数据全部来自Reddit,一个社交新闻站点,类似于贴吧,是很多新闻发布的首选站点。其模式是用户公开发布消息,其他用户在其中发布回复。Reddit中有多个subreddit,每个subreddit都关注一个特定的主题,有特定的发布规则以及版主。

OpinionGPT定义了11种偏见,包括政治派别(自由派、保守派)、地区(美国、德国、中东、拉丁美洲)、年龄(青少年、30岁以上、45岁以上)和性别(男性,女性)偏见。因此作者选择了不同subreddit代表不同的偏见。

根据这些子版块的规则,任何人都可以提问,但只有特定人群的成员才能回答这些问题,所以,在“askgerman”板块中,所有的答案都应该由德国公民回答。

对于不同的偏见,设计不同的指令调优语料库,其中所有答案都来自子Reddit中的有效帖子。指令使用帖子标题(通常是一个直接的问题)。而响应使用了对原始帖子投票较多的直接回应。这意味着一个帖子可能会产生多个指令—响应对。

在模型训练方面,作者选用LLaMa+LoRA进行有监督的微调。在训练过程中,使得模型能够学会区分不同的偏见。在推理过程中,使得用户可以在请求回复时指定所需的偏见。

为了确保输出结果与subreddit的偏见密切一致,而不会依赖于预训练期间获得的知识,作者进行了一系列定性探索,但最终采用了一种简约的提示方式,在指令和回复之前将subreddit名称重复三次。

有趣的分析

为了更好地了解模型中每个偏见群体对各种政治和社会问题的观点以及对不同人口统计数据的态度,OpinionGPT对BOLD数据集进行了定量评估。BOLD数据集由维基百科的提示组成,这些提示与不同种族、性别、宗教信仰、政治意识形态和职业相对应。

从上表中,我们观察到,“Conservative(保守)”偏见对所有五个种族和性别人口统计数据的负面情绪是最高的。令人惊讶的是,它也对基督教表现出最负面的情绪,而“liberal(自由派)”的偏见对伊斯兰教的负面情绪最高。

与老年人口统计相关的偏见(People Over 30,Old People)往往对所有子群体和想法抱有更积极的情绪和关注。这可能反映了Reddit上年龄较大的用户使用更礼貌的语言。

用户界面演示

除此之外,OpinionGPT还提供了一个演示界面,展示模型的偏见和观点,为用户提供了一种以指定的偏见生成回答的交互方式。用户可以向OpinionGPT提问,并选择他们希望调查的各种偏见和观点。

OpinionGPT将会根据用户的选择,使用针对每个偏见fine-tuning的模型来回答问题,从而实现对比。用户还可以选择生成尽可能中立的回答,或者自由组合。

在使用OpinionGPT时,用户可以通过选择不同的偏见和观点组合来探索模型的回答如何受到这些因素的影响。这提供了一种丰富的方式,让用户了解语言模型如何处理不同的偏见和观点,从而增强用户和研究者对大模型中偏见和主观性的认识。

总结

总之,OpinionGPT是一个有趣和实用的工具,可以帮助用户更好地理解和处理自然语言处理中的偏见和观点。它为用户提供了一个可以交互和探索的平台,从而增强了对语言和文化多样性的认识。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OY0c05x2NSb9_yLRS76gR4VQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券