推荐算法里面数据

推荐进化,可以分四个时期,第一个时期,主要的方法是,用户在前台搜索什么,然后服务去查表,查到该给用户推荐的内容推荐到前台。本质上是将用户的行为矩阵用spark矩阵分解,但是精度尚待提高。这个时代存在的问题比较多,个性化程度低,召回维度单一,复用率低,缓存效率低等。

在这个时期,数据指标记录:搜索内容,关键词维度下匹配信息ID,用户点击数据,单次获取信息位置(每条流量均记录),页码,用户停留时长,单贴用户停留时长,用户连续搜索次数(在十分钟内搜索多次),广告贴曝光量以及位置,广告贴点击以及转化效果,每日总流量,

在记录的基础上,还可以衍生计算:用户分析,广告贴质量,关键词热度,推荐匹配质量,市场流量分析,

第二个时期,系统进行了颗粒度的提成,从用户——类别变成了从用户——单品,同时引入了更多的维度及用户画像和商品画像,还完善了相关的托底数据。

这个节点的改进,首先就是细粒度的个性化提升,从类别级精细度做到了单品级的精细度;其次使用了CF+画像增加了召回维度,通过行为数据和购买数据可以进行计算并且还有一定的调整空间;最后,增强了复用性,这里就是一个非常重要的一块,就是将用户——商品拆解成了,用户——X,X——商品。举个例子,一个词到一篇文章,拆解成,一个词到一个topic,再从一个topic到一篇文章。

在这个时期,数据要引入用户画像数据,以及中间节点对应的两端数据,这个时期的数据中间节点和两端数据的对应是重点,在检测推荐效果的同时,增加检测用户——X的对应的准确性,以及X——商品的匹配的相关性。

第三个时期,这个时期的重点是实时推荐系统,核心就是实时数据,主要包含两部分的实时化,离线挖掘的实时化和用户兴趣的实时化,也就是说数据得到了实时化,在有效性上得到了保证,这个阶段转化率得到了8-9成的转化。实时服务这块的逻辑:发送请求,解析,召回,排序,业务处理,取数据。

这个时期数据切时区去存储数据,以及用户的兴趣数据,兴趣是完全具有实时性的指标,一定得时期以及环境下,用户的兴趣不同,比如说,一个用户新到一个地方,他对周边的环境不熟悉的时候,可能会经常去搜索跟生活类相关的信息,过段时间熟悉了,可能就不会关注这类信息,兴趣的实时更新在系统自动推荐上是特别有必要的。

最后一个阶段是机器学习的时代,首先底层会有一个机器学习的pipeline,这一层建好之后就会形成一个机器学习的数据仓库,生成特征性指标。在机器学习的时候,要有明确可量化的目标,模型也是,要有明确的优化点。其实就是在解决一些排序的问题,高点击率的帖子就应该被优先推荐么?高购买率的商品就应该被推荐么?这就完全说明了,不能只做排序,机器学习还要做召回模型和用户兴趣模型。机器学习利用学习后生成的数据仓库,优化特征性指标,优化模型系统。

最好的一种状态就是,拥有机器学习系统,同时实现模型实时更新,特征实时获取,排序实时计算。

机器学习整理到这里,对于用户画像这件事情不得不简单的整理一下。

画像的可以分四步走,首先做item链接,一边是用户,一边是iteam,在信息类平台上,用户的所有信息几乎都是有用的,性别,行业,地域,年龄,浏览信息,链接数据等。就目前淘宝的一个现状,我想买一个杯子,就搜索了杯子,查看了很多杯子,但是在我购买了之后,还是在不断的推荐我看杯子,这个真的就不合理了(买完了之后又推荐了一个看起来又便宜又好看的杯子,一点也不开心),这就是在最后一个链接数据上的检测出了问题,应该对我标记“已购买杯子”,至少短期内不应该再推荐杯子了。

第二步细致,我们目前在存储信息的时候,多按品类进行存储,一般会细分到3级品类,也就是说比如说用户感兴趣的一级品类是3C类产品,远远不够,所以要细分3级品类,到用户更喜欢什么3C类产品,比如单反,电脑,手机了。

第三步,要知道用户对于品牌的要求,在这一块,如果单纯的绑定商品信息是完全不够的,这个时候就要去寻找用户的历史行为数据作为偏好参考。

第四步就是预测用户兴趣,这个理解起来就简单一点了,比如用户今天在这个频道租了房,那么是不是马上可以使用搬家服务或者家政服务,这就是预测,现在各大平台都在这里发力。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180615G1T0J200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券