前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SIGIR2024@抖音 | 兴趣时钟: 时间感知流式推荐系统, 已全量上线

SIGIR2024@抖音 | 兴趣时钟: 时间感知流式推荐系统, 已全量上线

作者头像
张小磊
发布2024-05-11 18:08:52
2430
发布2024-05-11 18:08:52
举报

作者:吴贻清 单位:中科院计算所

TLDR: 本文解读一篇来自抖音团队的论文。该工作主要聚焦在解决流式推荐系统中时间信息建模的问题,目前已经被SIGIR2024 Industry Track录用,兴趣时钟在抖音音乐场景进行线上实验,取得了0.509%的用户活跃天数(LT)收益以及0.758%的时长收益(2023年最大单模型收益)。该方法全量上线。

论文:arxiv.org/pdf/2404.19357

背景介绍

用户的个性化兴趣偏好会随着一天中时间流逝而变化,例如短视频平台,早上9点用户可能偏好资讯类短视频,而晚上21点用户可能偏好娱乐类短视频;音乐平台,早上9点用户可能偏好DJ,而晚上21点偏好助眠类音乐。然而现有的大部分推荐系统的工作仅关注用户静态的兴趣偏好,忽略了用户偏好在一天内随时间的变化。

在工业界推荐系统中,时间状态尤为重要,然而推荐系统中的时间建模一直是个极具挑战的问题。针对外卖推荐系统,Zhang等人[1]提出将一天划分为早上、中午、晚上、深夜四段,不同时间段用不同的图模型。然而外卖推荐天然有时间段的差异,对应早餐、午餐、晚餐、夜宵,因此该方法对其他推荐系统并不通用。此外,在添加time gap的序列特征从而帮助模型感知时间是一种常见方法,这类方法能帮助模型学习序列中不同位置的重要性,但依然无法用户的动态偏好。业界更通用的一种时间建模方法将一天中的第n个小时编码为单独的embedding送入模型(一天24个小时对应24个embedding),称作时间编码方法。

以前大部分推荐系统选择批式训练,将一天中的样本打散再进行训练,时间编码方法在批式训练的推荐系统中取得了不错的效果。然而近几年越来越多的业界推荐系统升级到流式训练框架,样本实时生成并且实时消费进行训练,这导致一个时刻模型只见过一个时间特征,例如8点-9点期间,所有样本的hour embedding完全一样,模型并没见过其他时间特征,此外推荐系统每时每刻都会产生海量数据,导致模型遗忘其他时间特征。从后验来看,模型预估存在整点跳变的现象。

为了解决流式推荐系统中时间感知的问题,本文提出兴趣时钟方法(Interest Clock)。首先按小时统计用户过去的兴趣偏好,将兴趣偏好编码到一个时钟上得到小时级兴趣偏好特征。然而,用户的兴趣偏好不会出现跳变,因此,采用高斯分布对小时级兴趣偏好进行平滑聚合。将聚合得到的时钟兴趣表示送入深度模型用于最终预测。该方法将时间信息转化为用户的偏好标签特征,由于每个用户在每时每刻的偏好会有所差异,因此模型在每个时刻见到的特征能涵盖整个特征空间,从而解决了hour embedding在流式框架中的问题。

模型 & 特征工程

首先,拉取用户过去30天的消费历史,统计用户每个小时的兴趣偏好,具体计算偏好的公式如下:

每个样本有不同的曲风、语言、心情等特征,根据上述公式得到每个小时每个特征的得分,分别保留每个小时曲风、语言、心情的top3特征作为时钟特征。

模型框架如上图所示。采用高斯分布对24个小时的用户兴趣偏好特征进行平滑聚合得到interest clock emb,送入深度网络得到最终预测结果。

实验

线上实验取到了0.509%的用户活跃天数(LT)收益以及0.758%的时长收益。

分析发现用户在不同时间段偏好的歌曲心情存在一定差异性。


[1] Zhang et al. "Modeling dual period-varying preferences for takeaway recommendation." KDD. 2023.


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景介绍
  • 模型 & 特征工程
  • 实验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档