前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Item embedding 取平均得到 User embedding,是四不像还是四都像

Item embedding 取平均得到 User embedding,是四不像还是四都像

作者头像
阿泽 Crz
发布2021-12-02 15:33:34
1.1K0
发布2021-12-02 15:33:34
举报

所谓高维空间的诅咒:在低维空间中是四不像,但随着 Embedding 维度的增加,取平均后的 Item Embedding 会和用户原本的 Embedding 越来越近。所以高维下大概率是“四都像”。

最简单的应用便是:当觉得用户的 User Embedding 不太好时,那可以使用用户最近点击过的 Item Embedding 取平均,从而得到新的 User Embedding。

这个用户的 User Embedding 不太好有多个角度:

  • 用户行为太少(冷启、底活),学不好 Embedding;
  • 模型产出太慢,User Embedding 学的不够快;
  • 模型不太行,捕捉不到用户最近的偏好。

注意:

  • Item 和 User 要在同一个隐空间中;
  • 可能会太集中于用户短期兴趣,从而产生追打、信息茧房;

最早期有点像 Youtube 2016 年的论文:通过 item embedding 生成 user embedding 的过程。

此外,这里还有一个比较好玩的论文:KDD2020 《PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest》。大概是说:

  • 取用户短期点击的 N 条 Item 会导致太集中短期兴趣;
  • 考虑用户长期历史的兴趣不会追打,但 Pooling 会损失信息,且可能会导致”四不像“,如下:

其“取长补短”,其思路也很简单:取用户较长时间段内交互过的 Item embedding,聚成若干类,再拿每类的 Embedding 取召回,融合后返回。

至于如何聚类,聚几类,可以去看论文,这里不过多阐述。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 阿泽的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档