推荐系统是提供各种个性化服务的重要而强大的工具。传统上,这些系统使用数据挖掘和机器学习技术,根据数据中的相关性进行推荐。然而,仅依赖相关性而不考虑潜在的因果机制可能会导致公平性、可解释性、鲁棒性、偏差、回声室和可控性等诸多实际问题。因此,相关领域的研究人员已经开始将因果关系融入推荐系统来解决这些问题。本文回顾了推荐系统中因果推理的现有文献。讨论了推荐系统和因果推理的基本概念及其相互关系,综述了针对推荐系统中不同问题的因果方法的现有工作。最后,讨论了推荐因果推理领域存在的问题和未来的发展方向。
https://arxiv.org/pdf/2301.04016.pdf
1. 引言
推荐系统被认为是缓解信息过载的最有效工具之一,已被广泛部署在许多现实世界的系统中,如电子商务平台(如亚马逊、eBay)、社交网络(如Facebook、Twitter)、视频分享平台(如Youtube、TikTok)和流媒体服务(如Netflix、Hulu)。一般来说,这些系统使用高级技术从历史数据以及收集的用户、物品和内容信息中了解用户的偏好。近年来,这些技术的发展迅速。
一般来说,推荐算法可以分为三大类:协同过滤、基于内容的推荐和混合方法[1,2,3]。协同过滤(CF)模型的核心思想是相似的用户可能有相似的兴趣,相似的物品可能被相似的用户喜欢。早期基于记忆的CF模型,如user-based CF[4,5]和item -based CF[6,7],将用户-项目评分矩阵的行或列向量作为用户和项目向量表示,并根据预定义的相似度函数如余弦相似度和皮尔逊相关系数计算用户或项目之间的相似度进行推荐。为了从矩阵中提取潜在语义,研究人员后来探索了学习到的用户和项目向量表示。这从潜在因子模型(Latent Factor model, LFM)开始,如在实践中被广泛采用的矩阵分解[8]、概率矩阵分解[9]和因子分解机[10]。在这些模型中,每个用户和物品都被学习为一个潜在表示,以计算每个用户-物品对的匹配得分,通常基于内积。深度学习和神经网络的发展进一步扩展了CF模型。例如,[11,12,13,14]采用简单的用户和项目表示(例如,one-hot向量),并学习复杂的匹配函数。[15, 16, 17, 18, 19]学习复杂的用户和物品表示,并采用简单的匹配函数(例如内积)。用户表示也可以直接从历史交互中计算出来,例如在顺序推荐中[20,21]。基于内容的推荐将利用关于用户和物品的丰富信息,甚至上下文信息来增强推荐。为了从辅助信息中学习物品之间的相似性,基于内容推荐的表示方法已经从TF-IDF[22]这样的简单模型发展到DNN[23]、CNN[24]等基于深度学习的模型。混合方法结合了协同过滤和基于内容的方法,既利用了两种方法的优点,又避免了它们的某些局限性[1,2,25]。
传统推荐算法的基础是从数据中挖掘或学习相关模式。例如,许多协同过滤模型旨在学习用户-项目相关模式,一些基于内容的推荐模型旨在学习特征-特征相关模式。然而,现实世界中的应用是由潜在的因果机制驱动的,单纯的关联学习不考虑因果关系会导致一些实际问题。我们以经典的“啤酒和尿布”问题为例。单纯的相关性学习可以学习到啤酒和尿布之间的强相关模式,从而为购买了尿布的顾客推荐啤酒,或者为购买了尿布的顾客推荐啤酒。然而,底层机制是年轻爸爸通常会同时购买啤酒和尿布,不考虑底层机制推荐啤酒或尿布会造成困惑,进一步伤害用户满意度。因此,从关联学习向因果学习发展具有重要意义。
正式地,因果推理研究因果关系和结果之间的因果关系,其中原因负责结果。两个著名和流行的框架是潜在结果框架(也称为Neyman-Rubin潜在结果或Rubin因果模型)[26]和结构因果模型(SCM)[27,28]。这两种因果框架都有助于因果推荐的发展。通过利用推荐系统中潜在的因果机制,因果推荐能够处理不同的实际问题,包括可解释性、公平性、鲁棒性、提升和无偏性。
本综述的贡献。本综述旨在对推荐的因果推理进行全面的回顾。首先介绍了推荐系统的基本知识,然后讨论了推荐因果推理的现有工作。具体而言,在两个维度上探索了推荐系统中的因果推理。第一维遵循因果推理的流程,包括因果推理中的概念、符号和技术,以及因果推理和推荐系统之间的联系。第二个维度是推荐中的实际问题,包括问题介绍、因果方法和开放问题。更具体地说,推荐包括可解释性、公平性、鲁棒性、基于提升的无偏性。强调了推荐因果推理中仍有待解决的几个开放问题。
本次综述的组织方式如下:第2节介绍推荐系统的初步研究。从第3节到第7节,介绍了因果推理的基本知识以及与推荐系统的联系。第8至12节分别介绍了现有的因果方法,包括可解释推荐、推荐中的公平性、基于提升的推荐、鲁棒推荐、无偏推荐。在第13节中,我们讨论了推荐因果推理中的一些开放问题和未来方向。第14节总结了这项综述。
面向可信推荐系统:从浅层模型到深度模型再到大型模型
推荐系统作为人类与人工智能之间的桥梁,处于以人为本的人工智能研究的前沿。然而,不恰当的使用或开发推荐技术可能会给人类和整个社会带来负面影响,比如推荐机制的不透明导致的用户不信任、推荐算法的不公平、推荐系统的用户不可控性,以及大量使用用户隐私数据进行个性化带来的用户隐私风险。在本次演讲中,我们将沿着推荐算法从浅模型到深模型再到大模型的演进过程,讨论如何构建可信的推荐系统,包括但不限于推荐系统研究在AI社区中作为代表性的主观AI任务的独特作用,主观AI与可信计算的关系,以及可信计算不同视角下的典型推荐方法,例如因果和反事实推理、神经符号建模、自然语言解释、联邦学习、用户可控推荐、回音室缓解、个性化快速学习等等。