推荐系统的召回

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。 https://blog.csdn.net/jxq0816/article/details/82151302

所谓召回,在刚接触推荐系统的时候可能只看字面意思无法理解召回的意思,召回可以理解为向用户粗选一批待推荐的商品,相当于粗排序。之后会加一层CTR预估的rank模型,相当于精排序 推荐系统的主要模块即为:召回 => 排序(精排) => 过滤模块(对最终展示商品进行过滤,多样性排序等)

推荐系统是一个很大的话题,涉及到很多模块,这里主要是调研了一下推荐召回环节的主流做法。一般有如下几条线路。

基于Content的推荐

方法:只使用内容信息,而不直接使用用户行为数据。通过分析内容,推荐与用户浏览历史相似的内容。因此,如何计算内容之间的相似性是问题的关键。一般分成“分词”,“词权重分析”,“降维”三个阶段,每个阶段都有很多可以优化的地方,不同的做法会带来不一样的推荐体验。

优点:(一)不依赖用户行为数据,因此不存在新内容的冷启动问题。(二)基于内容的做法很容易在“降维”阶段引入用户行为,从而可以吸收一部分CF的优点。

缺点:(一)需要精细优化的地方会很多,没有工匠精神,效果比较难出来。(二)最重要的模块是通过对用户session实时分析用户意图。

应用: 在电商推荐中,如果基于内容计算商品相似度,内容相似度一般定义为(品牌+品类+价格+标题的内容相似度),大规模两两之间相似度计算非常困难,工程上实现需要LSH等方法

基于CF的推荐

方法:只使用用户行为数据,而不管内容信息。通过用户行为向量,使用item-base和user-base方法推荐相似内容或者相似人群喜欢的内容。

优点:(一)当用户行为数据丰富的时候,itembase和userbase的协同过滤方法非常通用,很容易出效果。(二)用户行为关联可以推荐出偏topic属性的内容,而不会局限于关键词,因此相关性效果一般都很好。

缺点:新内容的冷启动问题很严重,只能通过EE的方式缓解。

应用:电商中基本是item-based CF,即对于一个用户,先取出用户过去的行为session商品(如点击,加购物车,下单等),根据规则向用户的召回集中选择商品,可以配置多个召回源,如相似、相关、偏好店铺热销等。因此重点是离线计算好多种相似度关系(比如商品与商品的相似度、相关度,店铺下商品的热门程度、店铺与店铺的相似程度等) ,注:商品和商品的相似度,一般通过用户的浏览行为,用频繁项集(基于共现次数+热门商品降权方法)来计算,这样不用引入22之间计算的笛卡尔积,计算效率得到保证。

如果是user-based CF,则首要任务是计算用户之间的相似度,同样计算量非常大,但这种方法推荐新颖性较好(网易云音乐好像适用类似方法)。微信的deepwalk(用户的相识关系是典型的图模型),deepwalk通过节点的游走可以算出每个节点的embedding,进而求节点的相似度。

基于内容和CF的混合推荐

方法:不仅使用用户行为信息,而且还使用内容信息。一般是使用feature-based模型来进行推荐。

优点:(一)理论完备,通过模型的推广能力来解决新内容的冷启动问题,而且在小数据集上离线指标往往比CF能取得更好的效果。(二)可以通过提高模型复杂度不断提高推荐效果。

缺点:工程实现时难度比较大,需要解决用户和海量内容的打分服务。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

提高排序效果,Twitter搜索相关架构解析

每天,全世界几百万的用户都在Twitter上搜索着发生的新鲜事。在重大事件期间,比如刚刚过去不久的2016欧洲杯,我们观察到在用户前来Twitter查看最新战况...

21770
来自专栏张卫国的专栏

【SPA大赛】转化率预估中的用户偏好Emebeding

在Tencent广告算法大赛中,在对用户点击之后的转化情况预估时,笔者主要分享 Emebeding 降维(用户偏好分析)的技巧。

51900
来自专栏技术翻译

大数据建模方法的比较

在DT时代,互联网,智能设备和其他形式的信息技术的爆炸性增长使得数据以同样令人印象深刻的速度增长。这个时代的挑战似乎是如何对所有这些数据进行分类,组织和存储。

3.3K20
来自专栏AI研习社

2017 深度学习框架发展大盘点——迎来 PyTorch,告别 Theano

深度学习是机器学习中一种基于对数据进行表征学习的方法,作为当下最热门的话题,谷歌、Facebook、微软等巨头纷纷围绕深度学习做了一系列研究,一直在支持开源深度...

36060
来自专栏机器之心

资源 | 企业应该怎样选择数据科学机器学习平台?

选自kdnuggets 机器之心编译 参与:吴攀、黄小天、Nurhachu Null 一个弹性的数据科学平台(Data Science Platform)对...

37850
来自专栏新智元

【AI芯展开推理战】赛灵思最新深度神经网络推理器xDNN参数曝光

目前来看,FPGA可能没有像一些人预期的那样在深度学习的训练空间中占据一席之地,但AI推理的低功耗、高频率需求非常适合可重复编程硬件的性能曲线。

19430
来自专栏智能算法

BAT小米深度学习平台,你会选择哪一家

简介 近日重温了《深度学习在腾讯的平台化和应用实践(全)》,感兴趣可以在这里阅读 https://zhuanlan.zhihu.com/p/21852266 ,...

54370
来自专栏顶级程序员

机器学习必备:前20名Python人工智能和机器学习开源项目

源 / 深度学习世界 文 / IIan Reinstein 译 / 乌拉乌拉 如今机器学习和人工智能已经变得家喻户晓,有很多爱好者进入了该领域。但是,...

44690
来自专栏数据派THU

独家 | 6步教你用R语言制作动图

原文标题:How to create animated GIF images for data visualization using gganimate (i...

38970
来自专栏大数据挖掘DT机器学习

基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法)

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结。 应用场景介绍 其实数据挖掘应...

35450

扫码关注云+社区

领取腾讯云代金券