-- 转载请声明来源和作者信息 -- 冷启动算法基于令牌桶算法实现。 令牌桶算法的原理是:按一定的速率往令牌桶中放入令牌,当接收到请求时,从令牌桶申请令牌,只有拿到令牌的请求才能通过。 例如,想要使用令牌桶算法限制接口的最大QPS为200,那么就要每5毫秒就要生产一个令牌放入令牌桶,且生产令牌放入的速度不变。 冷启动算法用于控制令牌桶的令牌生产速率,即控制每个令牌生产的时间间隔。 Sentinel与Guava的实现不同,Sentinel可能是出于对性能的考虑,并不控制每个请求的通过时间间隔,只控制每秒钟能通过的请求数。 通过下面这张图来理解冷启动算法。 ? warmupPeriod:预热时间,即冷启动周期,对应上图中的梯形面积,Sentinel中默认为10秒。 thresholdPermits:从冷启动到正常的令牌桶中令牌数量的阈值,当令牌桶中的令牌数量超过该值时,则进入冷启动阶段。
推荐系统简介 什么是推荐算法 为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,于是有了个性化推荐系统。 解决信息过载的问题,代表性的解决方案是分类目录和搜索引擎。 推荐系统的商业化 1995年,MIT的 Pattie maes研究小组创立了 Agents公司(后来更名为 Firefly networks) 关注技术问题:降低在线计算时间,冷启动问题,可信度、 音乐、电影的推荐 电子商务中商品推荐 个性化阅读(新闻消息) 社交网络好友推荐、朋友圈推荐 基于位置的服务推荐 … 推荐的价值 Netflix:2/3的电影是因为被推荐而观看 Google news:推荐提升了38%的点击 Amazon:销售中推荐占比高达35% 推荐系统核心问题 如何评估一个用户(user)对一个物品(item)的评分(喜欢程度)? ;新的用户行为(实时意图) 商业目标( business target):一个用户带来多少盈利 参考文献 《常用推荐算法(50页干货)》by 常征 link 《推荐算法实践》by项亮
个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。
今天给大家简要分享的是发表在SIGIR2022会议上的一篇关于冷启动推荐算法的短文,其核心思想是通过设计基于上下文的自适应嵌入算法来抵消特征分布的差异,以此将冷启动用户的特征嵌入转化为与现有“热”用户相似的特征状态 对数据有限的冷启动用户进行有效推荐是一个固有挑战。 现有的深度推荐算法利用用户的内容特征和行为数据来产生个性化的推荐列表,但由于存在以下挑战,使得在冷启动用户身上往往面临着显著的性能下降:(1)冷启动用户可能与现有用户存在非常不同的特征分布。 (2) 冷启动用户的少量行为数据很难被算法有效且高效利用。基于此,本文提出了一个名为Cold-Transformer的推荐模型来缓解以上问题。 图1:本文提出的基于双塔框架的模型示意图。 最后,为了进行大规模的工业推荐任务,本文基于双塔结构,将用户和目标物品进行解耦。
然而我们常常面对的情况是用户的行为是稀疏的,而且可能存在比例不一的新用户,如何给新用户推荐,是推荐系统中的一个著名问题,即冷启动问题,给新用户展示哪些item决定了用户的第一感和体验。 实际过程中,我们面对大量的新用户,这些用户我们并不知道他们的profile,对于这些用户,常用的冷启动的算法包括根据已有的个人静态信息(年龄、性别、地理位置、移动设备型号等)为用户进行推荐。 特别是在某些场景下,推荐列表是给用户展示的唯一列表,那么显而易见,只能在推荐列表中尝试给用户推荐新物品。 一个最简单的做法就是在推荐列表中随机给用户展示新物品,但是这样显然不太个性化,一个较好的做法是将新物品推荐给曾经喜欢过与新物品相似的物品的用户。 6.结束语 本文简单介绍了推荐系统中一直存在的两大问题:冷启动和EE问题,并简单阐述了业界解决这两大问题的一些常见解决方法和算法。
本文是推荐系统遇上深度学习系列的第五十一篇文章,来谈谈推荐系统中冷启动的解决吧。 1、冷启动问题的分类 咱都知道,冷启动问题是推荐系统中面临的难题之一。 比如两个用户都是通过微博登录的,而他们在微博中是互相关注的状态,那么我们就可以通过其好友的行为来进行推荐。 2.3 利用同平台其他产品中的行为进行推荐 与第三方登录不同。 这里说的是使用同平台其他产品中的行为进行推荐。最典型的例子就是腾讯。 每首歌都可以标识为一个400维的向量,然后通过常见的向量相似度算法计算出歌曲的相似度。 4、基于深度学习的方法 基于深度学习的冷启动方案也有不少了。这里咱们简单谈一谈。 在电商领域的推荐中,常见的召回策略是通过计算物品之间embedding的相似度。
缓解 I2I 推荐的冷启动问题 本文是阿里巴巴集团机器智能技术和优酷人工智能平台合作的论文《Hybrid Item-Item Recommendation via Semi-Parametric Embedding 算法,以更好地缓解 I2I 推荐的冷启动问题。 一方面 I2I 是 feeds 瀑布流等用户推荐场景的基础, 另一方面,「为你推荐」、「猜你喜欢」等场景天然就是 I2I 的问题. I2I 在推荐系统中的作用至关重要。 ? 冷启动一直以来都是推荐系统重要的挑战之一, 常见的 content-based 方法是引入商品的内容信息,利用商品之间的文本、描述、类目等内容信息进行 I2I 相似度矩阵的计算。 因此,本文提出结合商品行为 & 内容信息的半参表示算法 SPE (Semi-Parametric Embedding), 以缓解 I2I 推荐中的冷启动问题。
如何解决深度推荐系统中的Embedding冷启动问题? 今天我们聊一聊Embedding的冷启动问题。 时至今日,深度学习的经典知识几乎已经是“显学”了,但是在实现深度学习推荐系统的过程中,还是充满了无数的细节和坑。所以接下来几篇文章会专门跟大家总结讨论课程中大家问题最多的,最感兴趣的话题。 可见,这个问题在实践中处于一种什么样的地位。 ? Embedding冷启动问题出现的根源 在着手解决它之前,必须要搞清楚这个问题出现的根源在哪,为什么Embedding冷启动问题那么不好解决。 这个想法当然是值得追求的,但是我们也不必落入“完美主义”的怪圈,自己给自己套上枷锁,在工业界的工作中,我们首要追求的还是整个推荐系统的效果。 强化学习中的反馈实时学习,实时调整推荐模型 但我这里主要想说的还不是这个。我想说的是,我们做推荐系统,有时候要跳出技术的固有思维,到更广阔空间去寻求团队合作。
冷启动和探索利用问题是推荐系统技术中的两个关键问题,本文结合达观数据的技术实战,对问题的解决方案进行了梳理和介绍。 ,如何给新用户推荐,是推荐系统中的一个著名问题,即冷启动问题,给新用户展示哪些item决定了用户的第一感和体验;同时在推荐过程中,我们需要考虑给新item展示的机会,比如给一个喜欢科幻电影的user推荐一些非科幻类型的电影 实际过程中,我们面对大量的新用户,这些用户我们并不知道他们的profile,对于这些用户,常用的冷启动的算法包括根据已有的个人静态信息(年龄、性别、地理位置、移动设备型号等)为用户进行推荐。 与用户的冷启动相对应的,则是item的冷启动,当一个新物品加入站内,如何快速的展现的用户。特别是在某些场景下,推荐列表是给用户展示的唯一列表,那么显而易见,只能在推荐列表中尝试给用户推荐新物品。 对于CF算法来说,无论是基于领域还是基于模型,如果想要这个新物品被推荐出来,显然我们需要获得用户对这个物品的行为数据。一个最简单的做法就是在推荐列表中随机给用户展示新物品,但是这样显然不太个性化。
但一个系统的好坏往往需要全链路的评定,贯穿于用户的整个交互过程。之所以说好的推荐系统更难定义,是因为虽然算法是核心,但是个性化推荐往往不止由算法构成,这背后需要各种技术支撑。 推荐系统角度 1) 长尾挖掘 挖掘必然是推荐需要去完成的一件事,长尾作为大头的存在,分发过程中需要将把握,或者说长尾挖掘是好的推荐系统需要去完成的任务。 Who:人物维度,则更多地去考虑用户各类信息特征,比如用户是男是女,是老是少,是新用户还是老用户,平时喜欢买什么品牌,喜欢什么品类的东西,风格如何等等,这些都是在描述这个人,现在这一类技术一般作为用户画像存在 所以在推荐的过程中我们会根据推荐的主体不同做更多的推荐策略算法和系统的适配,最终去推动。 开发过程中可以逐步明确相关流程,并做调整。推荐系统的优化是一个逐步迭代的过程,这一过程中需要我们进行效果的监控,从而推动策略的迭代。
概述 DeepWalk算法是在KDD2014中提出的算法,最初应用在图表示(Graph Embedding)方向,由于在推荐系统中,用户的行为数据固然的可以表示成图的形式,因此DeepWalk算法也常被用于推荐系统中的 算法思想 DeepWalk算法借鉴了word2vec算法的思想,word2vec是NLP中一种常用的word embedding方法,word2vec通过语料库中的句子序列来描述词与词的共现关系,进而学习到词语的向量表示 DeepWalk算法与word2vec类似,使用图中节点与节点的共现关系来学习节点的向量表示。 在DeepWalk中通过使用随机游走(RandomWalk)的方式在图中进行节点采样来模拟语料库中的预料,进而使用word2vec的方式学习出节点的共现关系。 2.1. RandomWalk RandomWalk是一种可重复访问已访问节点的深度优先遍历算法。
Angel的深度学习平台已应用在腾讯的很多个场景中。本次分享为大家介绍Angel推荐算法在游戏推荐中的应用。 它的推荐算法并没有使用人工抽取标签的方式,而使用了CF算法,以及在用户行为数据的基础上使用Deep FM算法。 02 Tesla平台上的推荐算法 ? 这个是特斯拉平台上的推荐算法。 DeepFM的各种非线性特征,其实比较类似于CNN算法里面,在识别分类过程中所作的权重分解。上图是在CNN的过程中,做的一个热力图。其中CNN是对图像做了一个分类。 一般我们可以根据误差的自动调整,来调整这个特征的维度组合。类似于推荐过程中自动聚类分群的过程,这就解决了传统算法的问题。 FM 的user_id 会形成冷启动的瓶颈,并且导致更新频率受到限制:传统的FM算法和CM算法,是一定要输入User ID的,那样就会产生一个冷启动的问题。
片子信息造成的差异,则可以通过典型的线性预估+属性特征进行处理。而如果有强烈的群体偏好,则可以在线性预估模型里面增加交叉特征,但是如果个性化需求极其强烈,那么协同过滤算法可能更加适合。 推荐系统的不同产品形态,“个性化”程度不同,例如我司的推荐产品“微博话题”推荐,没有太强个性化,这样的推荐系统要解决的问题是“大家都喜欢什么?”,简单的统计便能搞定。 对于多数广告类产品,个性化需求太难以捕捉,要解决的问题是“什么样的人喜欢什么样的结果?”,那么线性模型+属性特征+交叉特征更加适合。 但是对于大多数推荐产品,尤其是大平台的推荐产品,去探索“每个人喜欢什么东西?”的个性化推荐技术(协同过滤,SVD等)可能更加适合。 而不同的产品,选型哪怕类似,却也或多或少隐含差异,例如社交网络中的一些推荐产品,基于图挖掘的推荐方式可能更加适合。 一句话,技术选型必须参照产品形态与用户需求。
在之前的文章长尾预测效果不好怎么办?试试这两种思路中,我曾经介绍了两种解决推荐系统中长尾、冷启动问题的方法。其中,图学习解决冷启动和长尾问题,是业内目前研究非常多的一个方向。 今天对图学习解决冷启动问题这个方向进行了详细整理,整理了5种类型7篇顶会工作,帮助大家系统性理解如何利用图学习解决推荐系统冷启动问题。 具体做法是借鉴了BERT中Mask Language Model的思路,会随机mask20%的节点embedding(被设置为全0的向量),然后使用一个辅助的网络融合邻居节点的信息预测中心节点embedding 主要解决的是视频推荐的冷启动问题。 通过图神经网络,将中心节点的user/item邻居以及属性信息都进行汇聚。 6 总结 本文梳理了推荐系统中,使用图学习解决冷启动问题的5种方法7篇顶会工作。
文章中提到当前主流的基于因子分解的模型或者基于邻域的模型很难对整个Session建模,得益于序列化建模算法的发展,使得基于Session的推荐模型成为可能,针对具体的任务,文章中设计了模型的训练以及ranking 算法原理 在文章中采用的GRU(Gated Recurrent Unit)序列化建模算法,这是一种改进的RNN算法,能够较好的解决RNN中的长距离以来问题。 , 是item 的分数, 表示session中的正样本, 表示负样本。 如上,从Session中得到的是正样本,但是训练的过程中不能只存在正样本,此时需要负样本,对于上图中Output中的每一位,通过在样本库中随机采样,生成负样本。 3. 推荐中的序列化建模:Session-based neural recommendation Understanding LSTM Networks
4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。 5)已有比较好的技术,如关于分类学习方面的技术已相当成熟。 二、协同过滤推荐 协同过滤推荐(Collaborative Filtering Recommendation)技术是推荐系统中应用最早和最为成功的技术之一。 比如购买牛奶的同时很多人会同时购买面包。 算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。 基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性(Vendor Reliability)和产品的可得性(Product Availability)等考虑到效用计算中。 六、组合推荐 由于各种推荐方法都有优缺点,所以在实际中,组合推荐(Hybrid Recommendation)经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。
一、背景 在合适的时间把合适的内容推荐给合适的用户是推荐系统的重要目标,这个目标离不开推荐系统对用户和内容的充分理解。 但是,不可避免的,推荐系统总会迎来新用户和新内容。 在没有数据积累的情况下进行推荐,就是冷启动。本文所讲的冷启动主要是指对微视新上传的短视频的冷启动。 通过冷启动,我们希望达到两个目标:一是给予每一条内容一定数量的曝光,让创作者能够及时得到反馈,看到希望;二是在冷启动曝光的过程中,快速定位目标用户,通过UserCF/LookaLike等推荐算法,将优质的内容投放给合适的用户 冷启动中的优质内容判断,涉及到对短视频的潜力预测,这是一个比较新也比较重要的问题。 由于微视冷启动的时效性要求,潜力预测需要在进入推荐池之前完成(实际使用中是对经过安审的所有短视频进行计算),此时可用的信息仅有视频本身以及上传者的一些信息。
随着算法的不断发展,随后也出现了许多的优化方案,如FM算法通过在线性模型的基础上引入交叉项,GBDT+LR算法通过GBDT模型对特征的学习,有效的处理特征交叉问题。 Deep侧模型 Deep侧模型是一个典型的DNN模型,如下图所示: 对于DNN模型来说,不适合处理离散的稀疏特征,因此在深度神经网络模型中,通常需要将输入的离散稀疏特征转换成连续的稠密特征,如上图中的 表示的是第 层的激活函数输出, 表示的是第 层的偏置, 表示的是第 层的模型权重。 2.2. 文中将Wide & Deep模型应用在Google play的apps推荐中。 模型的训练之前,最重要的工作是训练数据的准备以及特征的选择,在apps推荐中,可以使用到的数据包括用户和曝光数据。 深度学习在 CTR 中应用 《Wide & Deep Learning for Recommender Systems 》笔记 深度学习在美团点评推荐平台排序中的运用 [tensorflow线性模型以及
前言 自从我上次在知乎回答了问题《机器学习中较为简单的算法有哪些?》,很多同学私信我询问我FM算法在推荐系统中的应用细节,索性今天就专门写一篇文章,仔细聊一聊FM这把“推荐算法中的瑞士军刀”。 FM存在一阶项,实际就是LR,能够记忆高频、常见模式 如我在《无中生有:论推荐算法中的Embedding思想》所说,Embedding是提升推荐算法“扩展性”的法宝。 虽然算法的整体特征空间是上亿级别,但是由于推荐场景中特征非常稀疏,每个样本的n都是非常有限的,因此训练与预测的速度都非常快 。 比如SHAP算法能提供如下图形化展示,模型给这条样本的最终打分是24.41,从图中我们可以看到是哪些特征做了贡献,又有哪些特征拖了后腿。 ? 为什么“局部特征重要性”更重要? 总结 虽然如今不如DNN、GNN那般受人关注,但是FM凭借其功能齐全、性能优异、便于上线和解释的优点,可称得上是推荐算法界中的瑞士军刀。
引言 推荐系统的输入特征具有稀疏性、分布差异大的特性,这两个特性决定了AES工作的意义。其中“稀疏性”理解为特征id经过hash化后,往往只占据完整hash表的一部分。 进一步的,对hash表中的元素建立embedding table,也会存在着大量embedding没有被使用。因此,embedding占据了推荐模型中的大部分参数量。 但是,手工设定embedding size是一项非常繁冗的工作,涉及到“组合爆炸”的问题,因此一般是将tuning embedding size的工作交由机器学习算法完成,在下面的章节中,我们将介绍 一些比较知名的 对于此类问题,强化学习算法是不足以应付的,一般只能用组合优化的方式来求解,而进化算法则是一个很好的选择。 屏幕快照 2021-11-09 下午6.04.08.png 上图是RULE算法对block的定义,和NIS中ME的定义大同小异,不过这里的"groups"不是为每个field设定的,而是对所有的features
腾讯云神图·人脸融合通过快速精准地定位人脸关键点,将用户上传的照片与特定形象进行面部层面融合,使生成的图片同时具备用户与特定形象的外貌特征,支持单脸、多脸、选脸融合,满足不同的营销活动需求……
扫码关注腾讯云开发者
领取腾讯云代金券