TLDR:本文提出了一种新的评测基准来评价利用ChatGPT来进行推荐的公平性。具体来说,通过创建了适用于大型语言模型进行推荐范式的一个数据集和一些公平性指标来说明了利用ChatGPT来进行推荐存在不同程度的不公平问题。

论文:https://arxiv.org/abs/2305.07609 代码:https://github.com/jizhi-zhang/FaiRLLM
大型语言模型(LLM)的巨大成功造就了一种新的推荐范式的出现,即通过LLM进行推荐的范式(RecLLM)。然而,需要注意的是,大型语言模型中很可能包含社会偏见,因此,由LLM进行推荐的范式需要进一步研究其推荐的公平性。
为了避免利用大型语言模型进行推荐的潜在风险,当务之急是评估其在用户方面的各种敏感属性方面的公平性。由于基于大型语言模型进行推荐的范式和传统推荐范式之间的差异,直接使用传统推荐的公平性评测基准是有问题的。

左图是在音乐推荐中对其进行公平性评估的例子。具体来看,通过比较不同敏感指令的推荐结果与中性指令的相似性来判断公平性。在理想的公平性下,对同一类别下的敏感属性的推荐应该与对中性指示的推荐同样相似。右图探讨了敏感属性和它们的具体取值。
为了解决这个难题,本文提出了一个新的基准,称为FaiRLLM。这个基准包括精心设计的指标和一个数据集,其中包括两个推荐场景(音乐和电影)中的八个敏感属性。

通过利用FaiRLLM基准对ChatGPT进行了评估,发现它在生成推荐时对一些敏感属性仍然表现出不公平的现象。