前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推荐系统从0到1[一]:数据与画像

推荐系统从0到1[一]:数据与画像

作者头像
星回
发布2018-08-02 15:23:47
2.5K0
发布2018-08-02 15:23:47
举报
文章被收录于专栏:星回的实验室

年终了,终于可以在需求的夹缝中喘息一会。回望2017年,最大的成就莫过于从0到1搭建起了一套支持多业务场景、高并发访问、高时效性的新闻推荐系统。这其中自是暗坑无数,趁着还未淡忘,将系统搭建过程中遇到的困难与解决方法记录于此。

0. 概况

以我们目前的推荐系统架构为例:

推荐系统是个很复杂的工程,对于算法和工程上的能力都是一个挑战。本文只是尝试从几个大模块简述上手搭建推荐系统的过程,不会深入探讨。然而要想推荐达到可观的效果,深入挖掘每个模块,研读论文、优化架构是必不可少的。以下我会从数据、画像(内容/用户)、召回和排序几个部分分别详述。

1. 数据

推荐系统,最重要的是数据。数据决定了算法的上界,再牛逼的算法也只是逼近这个上界而已。因此搭建系统时,首要考虑完善数据。这里数据包含两类:内容数据与用户数据。

1.1. 内容数据

这个很好理解,内容指的是推荐系统要推荐的item。电商就是商品,电影网站就是电影,我搭建的是新闻推荐系统,所以内容就是新闻。获取手段可以是网站内部发文,也可以是外部抓取,基础爬虫我就不赘述了,另外内容的版权问题也是需要注意的。抓取到之后我们需要对内容落地,这一步的关键是数据格式的规范化。考虑到我们的内容很可能是从不同数据源抓取,有着不同格式,为了方便日后的利用,大致需要遵从如下步骤,对原始数据进行ETL:

  1. 按推荐需求指定落地内容字段
  2. 对内容字段进行标准化处理,如正文提取、一致编码
  3. 选择合适的存储方式,如MySQL、MongoDB、HDFS

需要明确的是,上述系列行为都是为最终的推荐服务的。首先,需要考虑业务侧需要展现哪些属性(如标题、缩略图、摘要);其次,还需要考虑算法侧提取内容特征需要哪些属性(如正文、发布时间)。我在系统搭建的过程中,遇到最头疼的问题就是在NLP时需要依据某个内容属性而源数据没有抓取该属性,因此做抓取前尽量考虑周全,预留好一些字段是很有必要的。

以从腾讯网抓取的新闻部分属性为例:

1.2. 用户数据

搞定内容之后,我们还需要了解用户,推荐的基础也是用户的行为。在新闻网站上,最简单的行为就是点击。一名用户在网站上点击了一条新闻,我们可以认为他对这条新闻感兴趣,此时前端需要将这条记录上报到后台,后台再将log落地。这个过程可以是实时的,也可以用消息队列的方式分批处理,总之,依据场景需求以及系统架构能力。一条最简单的log如下:

代码语言:javascript
复制
user_id,news_id,timestamp  

user_id可以是用户手机的IMEI标识、PC的MAC地址、浏览器的Cookie ID等等,总之是需要能唯一标识用户的序列。当然这里涉及到的一个问题是,一个用户可以在多个终端登录,所以我们还需要用户的登录态来解决一对多的问题,比如用登录QQ、微信账号来做一个关联映射。

上述列举的log只包含最简单的信息,复杂的推荐需要更多的信息,比如来源IP(用以识别用户登录地域),收藏、评论等行为(造成不同兴趣权重),曝光行为(用于之后CTR模型的训练)等等。

有了内容数据和用户数据之后,我们已经可以建立一些简单基于用户行为的推荐策略了,比如itemCF、userCF,具体实现方式我在之前的文章里写过:http://septimusliu.com/2016/06/20/tui-jian-xi-tong-chu-tan ,这里不再赘述。但基于用户行为的策略,往往在系统冷启动时表现不会太好,我们还需要更多维的推荐策略。

2. 内容画像

众所周知,基于行为推荐需要一定的用户行为积累,而新闻生产速度很快,时效性要求又比较高,这时候我们需要一些 Content-based 方法来做推荐。内容画像是实现的基础。

2.1. 文本分类

分类,是新闻语义特征里颗粒度最粗的一个特征。根据分类可以对文本有一个基本的语义划分,可以让用户对兴趣内容有较为明显的感知,所以分类往往是内容画像的第一步。

在分类之前,我们首先要制定统一的分类体系,根据业务需求按颗粒度区分一/二级分类。这一步可以人工标注,也可通过无监督聚类的方法。总之,这对于融合多来源、多类型的内容数据至关重要。

分类的方法有很多,传统统计方法里如 Naive Bayesian、SVM,深度学习里的 CNN、LSTM 等都可以胜任。不过在大多数情况下,传统方法已经可以做到很好的效果,且实现简单,因此我们通常选择前者。

2.2. 关键词提取

分类完成之后,可以说我们的内容画像已经初见端倪。然而,仅仅精确到分类颗粒度的个性化推荐是很难满足用户的。用户对于文章的兴趣,往往精确到某个明星、某支球队,要捕捉到这种颗粒度的信息,只要依赖于关键词。

关键词提取是对于文章中出现的具有代表语义作用的词汇进行提取,并赋予权重。这类算法很多,baseline 的方法比如 tfidf、textrank,都能做到很好的效果。当然,如果我们要做到更精确,还需要结合业务数据做一些人工规则,比如将词性、实体、词出现位置等特征与 baseline 方法进行结合,或者用人工标注的方法转换为有监督学习的问题。

2.3. 主题抽取

分类和关键词,颗粒度的跨度其实是比较大的。在基于语义的个性化推荐过程中,一些冷门关键词往往比较难以命中,为了弥补这个真空,文本主题的概念就派上用场了。

图2-1 LDA示意图(来源:由Slxu.public - 自己的作品,CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid=7922733)

诸如 pLSA、LDA 的主题模型假设一篇文档的生成过程是这样的:

  1. 作者从文档 - 主题分布 θ 中随机挑选一个主题 zi
  2. 作者从主题 - 词分布 φ 中随机挑选一个词 wj
  3. 重复步骤1,直到文档所有词生成完成

LDA 与 pLSA 不同之处在于 LDA 还假设这两个分布也不是固定的,而是遵循两个狄利克雷先验分布。总之,这类算法最终计算出的是文档集合中存在的“隐分类”,表征文档语义中存在的一些潜在关联。主题的维度我们一般设置为较大的数字,这样我们便拥有了一个颗粒度介于分类与关键词之间的特征。LDA 的实现方法可以参照之前的文章:http://septimusliu.com/2017/06/24/zai-sparkshang-yong-ldaji-suan-wen-ben-zhu-ti-mo-xing

有了上述三类特征后,内容画像已经可以满足大部分需求了。须知,上文所说的方法都是比较基础的方式,像 CNN、RNN、Attention Model 都是可以尝试的方法,NLP 的研究和优化需要投入大量的精力,如果想在这上面深挖,建议系统学习 NLP 相关课程。

3. 用户画像

3.1. 兴趣画像

有了内容画像,我们再来计算用户的兴趣画像就是水到渠成的事情了。简单的方法就是根据用户的行为,检索到一定时间内用户所有有过正向行为(点击/收藏/评论)的 news,把它们看成一篇内容,对所有特征进行线性加和,作为用户在该时间窗内的兴趣画像。用户 u 的当天兴趣画像计算公式如下:

其中 m 为用户 u 在当天产生正向行为的文档集合,n 为文档 i 的特征集合。θj 表示文档 i 第 j 个特征的权重,P(θj) 表示第 j 个特征的先验概率(这一步主要是为了减弱头部文章对用户画像的影响,若某天某一类特征的新闻很热,那么有可能大多数用户画像里都会有这类特征,但它并不能真正代表用户的兴趣倾向)。

随着时间推移,用户的兴趣会发生迁移,因此我们需要加上时间的影响因素:

yt 表示 t 时刻的用户画像,yt-1 表示上一时刻的画像,λ 为时间衰减因子。

3.2. 基础画像

除了上述的用户兴趣画像外,还有一些用户的属性是我们感兴趣的,比如用户的性别、年龄、职业、所处地域,这部分可以根据业务特点来获取,这些我们称之为基础画像。基础画像虽然没有兴趣画像颗粒度细致,但在冷启动、地域强相关等业务场景也是比较重要的。

在业务实践中,我们发现用户的兴趣变化是很快的,并且很难用某一种状态涵盖住用户所有的兴趣范围。比如当我们在浏览新闻时,我们的近期浏览记录也许的确反映了我的兴趣变化,但也有可能我只是对热点感兴趣,抑或是想试探一下不同领域的阅读,再或者仅仅是手抖点错了。再比如,系统依据用户所处地域推荐内容,然而这个用户有可能只是来外地出差,他更感兴趣的可能依旧是常住地的新闻……无论如何,在计算画像的时候我们无法确保用户的意图,因此在快速反馈用户行为的同时,加上多状态的用户画像是有必要的。通常我们的做法是分别记录用户的长期和短期画像,在针对不同的画像做不同的推荐召回,以此满足用户不同状态下的阅读需求。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0. 概况
  • 1. 数据
    • 1.1. 内容数据
      • 1.2. 用户数据
      • 2. 内容画像
        • 2.1. 文本分类
          • 2.2. 关键词提取
            • 2.3. 主题抽取
            • 3. 用户画像
              • 3.1. 兴趣画像
                • 3.2. 基础画像
                相关产品与服务
                对象存储
                对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档