嘿,记得给“机器学习与推荐算法”添加星标
TLDR: 本文开发了一种检索增强的注意力方法,旨在获取样本内和样本间的细粒度特征交互,在保持效率的同时提高了点击率预估算法的预测能力。
论文:arxiv.org/abs/2404.02249 代码:github.com/YushenLi807/WWW24-RAT
点击率预估任务(CTR)被广泛应用于商业领域,如广告系统和推荐系统。特征交互建模在点击率预估中起着至关重要的作用。如下图所示,传统方法主要关注每个样本内的特征交互,很少考虑可以作为参考上下文来增强预测的跨样本信息。由于特征及其交互通常是稀疏的,CTR模型需要捕捉和记忆所有的交互模式,这给鲁棒性和可扩展性带来了挑战。
近年来,检索增强学习在自然语言处理和计算机视觉领域显示出了有效性,其主要思想是检索相似样本并通过这些外部演示增强模型预测。受其成功解决长尾问题的启发,本文认为它是解决上述问题的一种有希望的机制。在该方向上,RIM[1]、DERT[2]和PET[3]是检索增强点击率预估的三项初步工作。然而,它们妥协了样本内或样本间的特征交互,这仍然是次优的做法。为弥补前人工作中的缺点,本文提出了一种统一的框架,称为检索增强的注意力机制(RAT),以增强细粒度的样本内和样本间特征交互,用于点击率预测。模型结构如下图所示。
给定一个目标样本,本文使用稀疏检索算法从参考池(例如,历史日志)中检索相似样本。然后开发了一个基于transformer的模型,以获得样本内和样本间的细粒度特征交互。跨级联注意力不仅提高了联合建模之外的效率,还增强了RAT的鲁棒性。本文将语义信息压缩为一个token表示,将其提供给二进制分类器以做出最终预测。
在三个真实的数据集上进行了广泛的实验:ML-Tag、KKBox和Tmall,展示了检索增强方法的有效性。
RAT可以增强长尾样本预测,这表明它有能力解决特征稀疏和冷启动问题。
更多技术细节请阅读原始论文。