个性化推荐系统(二)---构建推荐引擎

  当下推荐系统包含的层级特别的多,整个线上推荐系统包含:最上层线上推荐服务、中层各个推荐数据召回集(数据主题、分类池子)、底层各种推荐模型。

        推荐系统介入线上各种业务,推荐系统当下已经介入内容方面:文章、问答、评论等各个业务系统,商品sku:纯商品、消息push、素材,混合多个业务同时推荐。如此多得业务每个业务开发一套相似的代码也是可以的但缺点是投入极大,并且每个业务代码都差不多,对大家能力提高也很不友好,开发推荐引擎就是一件既能提升大家技术水平,又能很好的应对各个推荐频道快速发展。

        推荐引擎是一定要搞得了,业务发展极快,哪个业务都要接入个性化推荐。构建推荐引擎没什么好探讨的了,现在需要思考和探讨的是怎么构建推荐引擎。

        从哪个角度思考呢?杉枫是从个性化推荐系统、广告投放系统、搜索引擎三个既存在相似又有差异的系统着手思考的。搜索引擎有极好的开源实现以及大量的架构分享文章,确定从搜索引擎入手,借鉴搜索引擎打造属于我们自己推荐引擎。

       有了搜索引擎可以借鉴,但推荐系统虽然像搜索引擎,但毕竟不是搜索,推荐比搜索多得是,召回流程更多、更广泛,并且需要召回的范围是基于用户画像来构建的,搜索核心是输入词与文章之间的匹配程度,搜索引擎核心到今天依然是,在搜索架构基础上需要扩展的是增加召回流程以及召回次数,后边再根据召回集拉取特征集进行打分排序。

        整个推荐引擎核心流程就是第一步拉取类别召回集,线上服务收到用户请求,根据用户请求拉取主题、标签、素材、品类召回集,再根据当前召回集拉取偏好、相似召回集,完成第一步类别拉取,构建类别过滤集合包含但不仅仅是已购买、已曝光、已点击,其中每种过滤集合都包含实时、离线,对类别召回集进行过滤。

       第二步根据已拉取类别召回集,拉取素材召回集,例如:文章、sku等等,构建素材过滤集合,已购买、已曝光、已点击等等。通过过滤集合过滤素材召回集。

       第三步如是策略算法,根据策略对类别、品牌、品类进行隔断,提升用户体验,对结果进行返回。另外一种是基于当下机器学习、深度学习进行CTR打分预估。这种场景下就要根据素材,拉取几十个维度的特征,将特征实时传入模型进行点击量预估,根据机器学习模型、深度学习模型实时打分,对素材进行排序,并对排序结果进行类别、品牌、品类进行隔断,隔断的目的提升用户展现时的体验,至于为什么隔断?可以想象一下如果今日头条一次刷新给你推得内容全是手机、或是淘宝下拉给你返回全是笔记本,种种情况下一定会让你抓狂的。

        第四步每个业务拉取的集合均不相同,需要每个召回集合都是可以通过配置平台灵活配置的。机器学习、深度学习模型通过模型管理平台进行管理,实现对于模型的动态加载、模型灵活动态更新。隔断策略平台配置化,能够按每个业务定制灵活配置策略。

        通过以上这些服务、配置化、平台初步实现一般推荐引擎,从而使大部分业务不用每次去重复开发一次相似又有差异的代码,阶段性提升小组每个人的技术水平。

        个性化推荐是一个正在蓬勃发展的技术,推荐引擎会不断吸收内部、外部,以及其他领域的结果不断进行完善。

         非偏好用户怎么进行推荐、热门集合、通用集合、实时新闻构建等,后续会写篇文章详细介绍下。

   微信搜索:debugme123

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

驾驭机器学习的13种框架

想大胆尝试机器学习?这些工具可以为你处理繁重的任务。 驾驭机器学习的13种框架 ? 在去年,机器学习以前所未有的势头进入主流。对这股潮流起到推波助澜的不单单是成...

19310
来自专栏程序员宝库

百度跨平台 AI 推理加速引擎 -- Anakin

AI技术包含训练和推理两个阶段。推理阶段的性能好坏既关系到用户体验,又关系到企业的服务成本,甚至在一些极端应用上(比如无人驾驶)直接关系到个人生命财产安全。目前...

1484
来自专栏机器之心

业界 | 提供免费计算资源,开发平台AI Studio零门槛实现AI能力

AI Studio 是百度推出的一站式开发平台:一个囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算的一体化编程环境。用户不必纠结于复杂的...

1220
来自专栏AI研习社

如何用TensorFlow快速搭建神经网络?来看看DeepMind新开源工具Sonnet!

去年 DeepMind 作出决定,将全部研究搬到 TensorFlow 框架上进行。 近一年时间过去,回头来看,DeepMind 认为这项选择十分正确——许多模...

3509
来自专栏新智元

【腾讯优图首度开源深度学习框架ncnn】主打手机端,同类cpu框架最快

【新智元导读】 腾讯 AI 三大支柱之一的腾讯优图实验室公布了成立以来的第一个开源项目ncnn,这是一个为手机端极致优化的高性能神经网络前向计算框架,无第三方依...

6879
来自专栏AI科技评论

开发 | Facebook、微软联合推出​ ONNX 标准,号称要解决开发框架碎片化

AI 科技评论消息,今日微软和 Facebook 发布了一个全新的开源项目——ONNX,欲借此打造一个开放的深度学习开发工具生态系统。 ONNX 的全称为“Op...

3414
来自专栏数说工作室

懂点硬件 | AlphaGo、图像搜索、街景......背后都有它的影子:TPU

去年,谷歌曾在I/O开发者大会上透露了一款名为TPU的芯片,全称Tensor Processing Unit 张量处理器,是不是有点眼熟?(谷歌推出的机器学习框...

3005
来自专栏PPV课数据科学社区

数据仓库术语一览

数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常...

3857
来自专栏AI科技评论

开发 | PyTorch vs. TensorFlow月度使用体验总结

AI科技评论按:日前,英伟达深度学习项目实习生Dominic Monn在medium上发文总结了他使用PyTorch和TensorFlow的一些体会,在文章中,...

3538
来自专栏星流全栈

【两分钟论文#161】AI创建用户界面,前端将失业?神器pix2code!

1664

扫码关注云+社区