前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KDD21 | 如何纠正推荐系统中的流行度偏差

KDD21 | 如何纠正推荐系统中的流行度偏差

作者头像
guichen1013
发布2022-09-22 18:17:42
1.5K0
发布2022-09-22 18:17:42
举报
文章被收录于专栏:海边的拾遗者海边的拾遗者

题目:Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System

发表地:KDD 2021

论文解读人:中国科大 魏天心

一、摘要

推荐系统的总体目标是为用户提供个性化的建议,而不是推荐热门物品,然而正常的训练范式,即拟合一个推荐模型来重建观测到的用户行为数据,会使得训练模型偏向于推荐流行商品,从而导致马太效应,即流行的物品被更频繁地推荐,并变得更加流行。

该论文从一个全新的视角——因果关系的角度来探讨推荐系统中的流行度偏差问题。该文章指出,流行度偏差存在于因果图中物品节点对排名分数的直接影响之中,也就是说物品的内在属性是错误地赋予某些物品过高排名分数的原因。文章认为为了纠正这种偏差,有必要考虑一个反事实的问题,即如果推荐模型只输入物品相关信息,那么它的排名分数将是多少。为此,该论文用因果图来描述推荐过程中的重要因果关系,在模型训练过程中,论文采行多任务学习的方式,建模每一项因果关系对于推荐得分的贡献,并在模型测试过程中采用反事实推理的方法来消除流行度对于推荐的影响。

二、研究背景

个性化推荐改变了无数的在线应用程序,大量不同的推荐算法也都被设计和部署,这些算法的默认优化选择都是重建历史中的用户-物品交互,然而在真实数据中,物品的分布频率并不均匀,它受到曝光度机制、口碑效应、促销活动、物品质量等诸多因素的影响,从而造成在绝大多数情况下,物品的分布频率是长尾的,即少数的流行物品包含了大多数的交互。这使得模型发现频繁地推荐流行物品可以简单地拟合训练数据,从而向该方向更新参数并更倾向于推荐流行的物品,这种流行度偏差会阻碍推荐系统准确理解用户的偏好,减少推荐的多样性。

目前针对这个问题的去偏算法主要可以分成三类:(1)逆权重分数:估计物品流行度的倾向性权重,并对每条数据样本利用逆权重分数进行加权。(2)加入无偏数据:通过从额外的无偏数据中学习来纠正流行度偏差。(3)分解嵌入表示:将兴趣和流行度分解为两套嵌入模型,并调整使得模型学习到更鲁棒的模式。

这些方法能起到一定的去偏效果,但也有一定的局限性,这些方法缺乏对物品流行度如何影响每个特定交互的细粒度考虑,也缺乏对流行度偏差机制的系统理解。文章认为,消除流行度偏差的关键是了解物品流行如何影响每次交互,而不是盲目地将增加长尾物品的权重。

三、方法介绍

方法介绍共分为三部分:因果图的建立、建模因果效应、消除流行度影响。

【因果图的建立】

图1:因果图的例子

图2:推荐系统中的因果图

【建模因果效应】

图3:MACR模型框架

【消除流行度影响】

消除流行偏见的关键是通过消除物品对于模型的直接影响,因此文章将训练时的预测分数(总因果效应TE)减去因果图中偏差造成的直接影响(自然直接影响NDE )即为最终去偏差的预测分数:

图4:反事实推理消除偏差

四、实验结果

表1:数据集统计

图5:整体推荐效果

图6:消融实验

图7:不同物品分组上的推荐效果

【推荐结果分析】文章将物品根据在训练集中的流行度划分成不同的分组图,并计算这些物品在测试时的平均推荐准确度,从图7中可以发现对于不同分组,因果去偏的方法均取得较大提升,并且流行度越高,提升越大,说明了因果去偏的有效性。

五、实验结果

该文从因果推理的角度去消除推荐系统中的流行度偏差,设计出了模型无关的去偏框架 MACR ,该方法根据因果图进行多任务训练,评估不同因素对排名分数的贡献,并采用反事实推理的方法来估计从物品信息到排名分数的直接影响,最后将其去除以消除流行度偏差。该方法是利用因果推理进行推荐的初步尝试之一,且通过在五个真实推荐数据集上的大量实验证明了其有效性。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 海边的拾遗者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
智能数据分析
腾讯云智能数据分析 Intellectual Data Analysis 是新一代云原生大数据敏捷分析解决方案。产品具备存算分离、动态扩缩容等特点,并内置事件、转化、留存、行为路径等成熟分析模型,提供高可用、低成本的全场景敏捷分析服务,可同时满足数据分析师、数据开发工程师和业务决策人的关键分析需求,帮助企业大幅降低数据分析成本,支撑业务更高效决策。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档