专栏首页AI科技时讯Item2vec: Neural Item Embedding for Collaborative Filtering

Item2vec: Neural Item Embedding for Collaborative Filtering

0 背景:

推荐系统中,传统的CF算法都是利用 item2item 关系计算商品间相似性。i2i数据在业界的推荐系统中起着非常重要的作用。传统的i2i的主要计算方法分两类,memory-based和model-based。

作者受nlp中运用embedding算法学习word的latent representation的启发,特别是参考了google发布的的word2vec(Skip-gram with Negative Sampling,SGNS),利用item-based CF 学习item在低维 latent space的 embedding representation,优化i2i的计算。

-------------------------------------------------

1 回顾下google的word2vec:

自然语言处理中的neural embedding尝试把 words and phrases 映射到一个低维语义和句法的向量空间中。

Skip-gram的模型架构:

Skip-gram是利用当前词预测其上下文词。给定一个训练序列

,

,...,

,模型的目标函数是最大化平均的log概率:

目标函数中c中context的大小。c越大,训练样本也就越大,准确率也越高,同时训练时间也会变长。

在skip-gram中,

利用softmax函数定义如下:

W是整个语料库的大小。上式的梯度的计算量正比如W,W通常非常大,直接计算上式是不现实的。为了解决这个问题,google提出了两个方法,一个是hierarchical softmax,另一个方法是negative sample。negative sample的思想本身源自于对Noise Contrastive Estimation的一个简化,具体的,把目标函数修正为:

是噪声分布 ( noise distribution )。即训练目标是使用Logistic regression区分出目标词和噪音词。具体的Pn(w)方面有些trick,google使用的是unigram的3/4方,即

,好于unigram,uniform distribution。

另外,由于自然语言中很多高频词出现频率极高,但包含的信息量非常小(如'is' 'a' 'the')。为了balance低频词和高频词,利用简单的概率丢弃词

其中

的词频,t的确定比较trick,启发式获得。实际中t大约在

附近。

-------------------------------------------------

2 Item2vec算法原理:

Item2vec中把用户浏览的商品集合等价于word2vec中的word的序列,即句子(忽略了商品序列空间信息spatial information) 。出现在同一个集合的商品对视为 positive。对于集合

目标函数:

同word2vec,利用负采样,将

定义为:

subsample的方式也是同word2vec:

最终,利用SGD方法学习的目标函数max,得到每个商品的embedding representation,商品之间两两计算cosine相似度即为商品的相似度。

-------------------------------------------------

3 Item2vec效果:

对比的baseline方法是基于SVD方法的用户embedding得到的相似度,SVD分解的维度和item2vec的向量维度都取40,详细见paper。数据是应用在music领域的,作者利用web上音乐人的类别进行聚类,同一个颜色的节点表示相同类型的音乐人,结果对比如下:

图a是item2vec的聚合效果,图b是SVD分解的聚合效果,看起来item2vec的聚合效果更好些。 原文https://arxiv.org/pdf/1603.04259v2.pdf

https://www.cnblogs.com/bentuwuying/p/8271262.html

本文分享自微信公众号 - AI科技时讯(aiblog_research),作者:博客园

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • DeepFaceLab坑之ffmpeg

    DeepFaceLab是一款支持视频或图片的换脸开源软件,其使用非常简单,有官方的juptyer notebook案例,这里不做过多的教程介绍。

    用户3578099
  • Python从入门到熟练(7):函数

    本节主要讲函数。函数也可以看作是一种方法,能够去实现某种想法,比如加法等操作就是一种函数,只不过在背后被封装起来了。函数是编程中一个重要的方法,

    用户3578099
  • 图像检索:基于内容的图像检索技术(三)

    无论是对于相同物体图像检索还是相同类别图像检索,在大规模图像数据集上,它们具有三个典型的主要特征:图像数据量大、特征维度高以及要求相应时间短。下面对这三个主要特...

    用户3578099
  • tensorflow: 畅玩tensorboard图表(SCALARS)

    这篇博客建立在你已经会使用tensorboard的基础上。如果你还不会记录数据并使用tensorboard,请移步我之前的另一篇博客:tensorflow: t...

    JNingWei
  • python中怎么表示空值

    python中,万物皆对象,所有的操作都是针对对象的。 那什么是对象?5是一个int对象,‘oblong’是一个str对象,异常也是一个对象,抽象一点是,人,猫...

    砸漏
  • 处理stale的pg

    在某些场景下Ceph集群会出现stale的情况,也就是ceph集群PG的僵死状态,这个状态实际上是无法处理新的请求了,新的请求过来只会block,那么我们如何去...

    用户2772802
  • 每天一道剑指offer-二叉树中和为某一值的路径

    今天的题目 每天的题目见github(看最新的日期): https://github.com/gzc426 具体的题目可以去牛客网对应专题去找。

    乔戈里
  • 通过消息传递实现进化集群(CS LG)

    原文题目:Evolutionary Clustering via Message Passing

    用户6853689
  • python可视化神器——pyecharts库

    pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常...

    QQ1622479435
  • 适合初学者的软件定义数据中心架构

    软件定义数据中心是一种数据管理方式,它通过虚拟化来抽象计算、存储和网络资源,并将其作为服务提供。为了促进这一过程,SDDC包括智能软件以集中管理虚拟化资源,并自...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券