首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KDD2020 | 半监督迁移协同过滤推荐

KDD2020 | 半监督迁移协同过滤推荐

作者头像
张小磊
发布2020-10-30 11:20:37
8710
发布2020-10-30 11:20:37
举报

嘿,记得给“机器学习与推荐算法”添加星标


协同过滤是推荐系统恒久不变的主题。随着时间的推移,它也不再是那个经典的、苍老的协同过滤,反而在各大顶会中洗练出了更花哨的光华,例如:

利用高阶连通性的NGCF:Neural graph collaborative filtering [SIGIR 2019]

利用双线性形式的HybridSVD:HybridSVD: When Collaborative Information is Not Enough [RecSys2019]

同时利用分类/连续特征的CB2CF:CB2CF: A Neural Multiview Content-to-Collaborative Filtering Model for Completely Cold Item Recommendations [RecSys2019]

异质的不负采样的CF:Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation [AAAI2020]

让我们喊出口号:协同过滤永不过时!

本文所介绍的推荐系统论文,虽然已经是老话题的协同过滤,究竟作者会做了哪些令人叹为观止的亮点呢?

毕竟KDD,必出精品不是?

Paper:Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation

推荐系统的数据稀疏性是一个固有的挑战,因为推荐系统的大部分数据都来自于用户的隐式反馈。这就带来了两个困难:

  • 一是大部分用户与系统的交互很少,没有足够的数据进行学习;
  • 二是隐式反馈中不存在负样本。通常采用负样本的方法来产生负样本。

然而,这导致了许多潜在的正样本被误标记为负样本,数据的稀疏性会加剧误标记问题。这是容易解释的,因为:用户购买了某一商品,你可以说他喜欢这一商品;但是用户如果没有买的那些商品,你没有办法说他就不喜欢。为了解决这些困难,作者没有像其他的做法一样,而是将稀疏隐式反馈的推荐问题作为半监督学习任务,并探索领域适应(Domain Adaptation)来解决这个问题。具体地,是将从密集数据中学习到的知识转移到稀疏数据中,并专注于最具挑战性的没有用户或项目重叠的情况。

在这种极端情况下,直接对齐两个数据集的嵌入并不理想,因为这两个潜在空间编码的信息非常不同。因此,作者采用领域不变(domain-invariant)的文本特性作为锚点来对齐潜在空间。为了对齐嵌入,我们为每个用户和项提取文本特性,并将它们与用户和物品的嵌入一起提供给域分类器。训练嵌入来迷惑分类器,并将文本特征固定为锚点。通过域适应,将源域内的分布模式转移到目标域。由于目标部分可以通过区域自适应来监督,因此我们在目标数据集中放弃了负采样以避免标签噪声。


本文的策略与DANN非常相似,DANN是一种用于图像分类任务的算法,它在视觉空间中对齐高级图像表示。由于两个域使用相同的特征提取器,因此将两个域的图像映射到相同的空间中,从而将语义相似的图像分布在空间的相似位置。通过领域适应,语义相似的聚类被对齐在一起,并转移分布模式来细化目标领域上的表示。听上去还挺复杂,但是简单地说,就是将老虎和猫投影到同一空间时,会有一些特征是非常相近/几乎一样的。

这个道理拿到推荐系统中也说得通,毕竟推荐过程也是通过找物品和用户之间的相似性来进行推荐。但是,在基本的CF模型中,没有具有特定语义的数据(如图像和文本),因此,作者通过将用户和项目嵌入到潜在空间中来提取高级密集特征。通过这种方式,我们将来自不同领域的用户和项目映射到不同的潜在空间。

回到了之前说的困难,就是“对齐问题”。以图(b)中的电影为例,实线和虚线分别表示恐怖片和喜剧片。

从图中可以看到,直接对齐嵌入可能会导致橙色域的恐怖电影被误导,蓝色域的喜剧被采集,分布格局被转移错误。原因是这些嵌入被映射到橙色区域的不同的潜在空间,正负半轴分别编码恐怖和有趣,而在蓝色区域面临相反的情况。

为了解决这一差距,我们需要在同一空间中进行域适应,即对空间进行对齐,对嵌入进行对齐。

为了对齐潜在空间,我们将领域不变特性作为锚点进行探索。在本文中,我们利用了可以从用户评论中轻松提取的文本特性,如下图(c)所示。

我们将文本特征与嵌入连接起来,从而将空间扩展为文本潜在空间(横轴表示潜在空间,纵轴表示文本空间)。可以看到,在图(b)所示的潜在空间中,不同的类别是不可分离的。而在图(c)中,不同的类别通过扩展文本维度是可分离的。

对于域适应,我们使用连接的嵌入和文本特征作为域分类器的输入。在固定文本特征的同时,使用分类器对嵌入进行反向训练。

因此,如果对类别这样操作的话,文本特性应该是域不变的。也就是说,来自所有域的恐怖电影都映射到文本空间的负半轴上。

为了弥补这一差距,我们首先提出了一种称为文本记忆网络(TMN)的记忆结构,通过将每个用户和物品映射到单词语义空间来提取文本特征。然后,我们将特征注入协同过滤(CF)模型来生成预测。由文本特性和CF模块组成的模型称为文本协同过滤(TCF)模型。最后,在源域和目标域上同步训练两种TCF模型,并通过自适应网将它们连接起来。

这种迁移学习模型被称为文本增强领域适应推荐(TDAR)方法。


总结

Highlight 1:本文提出了一种域自适应推荐方法(TDAR),将嵌入内容对齐到相同的潜在空间中,极大地提高了稀疏数据集上的性能。在对齐空间和嵌入的工作上使用文本特性作为锚点。

Highlight 2:作为TDAR中的一个重要模块,我们设计了一个提取领域不变文本特征的记忆网络,并将这些特征注入到CF模型中,提出了一个基于文本的协同过滤模型。

Highlight 3:作者开源了。有兴趣了解迁移学习+评论+协同过滤的兄弟们可以移步:开源代码[https://github.com/Wenhui-Yu/TDAR]。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档