首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

九道门|数据分析案例-相亲局,让你秒懂推荐算法机制

最近几年随着大数据、人工智能、机器学习行业的兴起,作为数据分析师多多少少都接触过一点推荐算法相关的分析,在做算法模型分析的前提是要弄懂推荐算法的机制,掌握了常规的业务知识以后,就算不会写代码去实现过程,也能用算法进行一定的分析。现在主流的推荐算法大概有四步:召回、过滤、粗排、精排。这些都代表什么意思呢?

下面会用一个特别特别形象的案例跟大家介绍:相亲。

召回:广撒网

召回的概念是从目前的资源池中将满足条件的资源圈出来。就好比要去相亲了,在相亲网站上进行了数据的搜集,首先确定了年龄段,发现相亲网站上选出来的人各式各样,各种颜色的皮肤,各种颜色的头发,嘴里说的念的都是“选我选我”的中国话~

当然还会存在一些收费或者VIP用户,会为他们推荐一些高质量的对象,还有通过其他的相亲网站、熟人介绍等方式。这些特殊通道就是多路召回。总之呢,在海选这一步,只要是符合粗略条件的什么都不管,一把拿过来再说。

这个原理跟我们平时头条有点类似,算法召回的方式有很多种,比如:向量召回、协同过滤、其他多路召回等等,包含的内容也是五花八门的,比如关注的博主发布的内容,热度比较高的,各种热点花边的,从内容分类来看还有娱乐、影视、政治、外交等等。总之最后在客户端呈现的内容,首先要做到“全”以后才有条件去做“准”,召回这一步就针对的是“全”的问题。

过滤:复选

经过海选的对象就进入到复试的阶段了,这么多对象不可能全部见一面,全部成功的,那么就需要在见面之前再筛一筛,这时候要在这些人中淘汰一批不符合某项条件的,比如太瘦了,太胖了,太高了或者家庭条件不符合、学历一般,投机倒把的等等,这一系列下来就能筛掉质量比较差的对象了。

还是以头条为例,召回的内容中挂着热点标签搞反动倾向,浏览数低,老旧内容先去掉,过滤一下质量不好的内容,留下稍微精华的一部分。

粗排:了解

既然要见面了,那就需要在见面之前先沟通一下吧,聊聊天,谈谈三观,谈谈理想,发现不合适,好的,换下一个。这时候就根据言谈举止等等再进行打分,再过滤掉一部分不合适的,精益求精。

就推荐算法来说,小的APP在召回阶段资源就不够了,到最后展示给客户的内容就不多,那么就可以粗排和精排一起做,大型APP比较任性需要用粗排继续过滤一波数据来降低服务器的载荷。

精排:见面

经过三面之后,剩下的人不多了,就可以安排见面了,那最后可以剩下哪个人,或者哪几个人还是需要再次评估的,到这一步就要根据个人的偏好还有对象的动态特征进行挑选了。

这就相当于新闻列表中除了之前所说的特征,还要根据点赞收藏转发用户偏好去进行一个综合的评分,将最适合当前用户的内容排序曝光出来。

由于新用户是没有行为数据的,所以就不能判断用户的偏好,对于推荐引擎来说相当于冷启动,这时推荐的内容相对比较杂乱,慢慢的随着用户的行为积累,算法学习出用户的偏好,推荐的内容就越来越集中于某一些领域。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211102A0736600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券