推荐系统遇上深度学习(十三)--linUCB方法浅析及实现

上一篇中介绍了Bandit算法,并介绍了几种简单的实现,如 Epsilon-Greedy算法,Thompson sampling算法和UCB算法。

但是传统的实现方法存在很大的缺陷,主要是缺乏用附加信息刻画决策过程的机制。今天的文章就来介绍一种结合上下文信息的Bandit方法,LinUCB,它是Contextual bandits算法框架的一种。

本文的原文是雅虎的新闻推荐算法:https://arxiv.org/pdf/1003.0146.pdf。里面公式是真的挺多的,而且涉及到了两种linUCB算法,本文只介绍第一种方法。感兴趣的同学可以阅读原文。

LinUCB浅析

这里只简单介绍一下LinUCB算法的流程,真的是浅析,浅析!

在推荐系统中,通常把待推荐的商品作为MAB问题的arm。UCB是context-free类的算法,没有充分利用推荐场景的上下文信息,为所有用户的选择展现商品的策略都是相同的,忽略了用户作为一个个活生生的个性本身的兴趣点、偏好、购买力等因素,因而,同一个商品在不同的用户、不同的情景下接受程度是不同的。故在实际的推荐系统中,context-free的MAB算法基本都不会被采用。

与context-free MAB算法对应的是Contextual Bandit算法,顾名思义,这类算法在实现E&E时考虑了上下文信息,因而更加适合实际的个性化推荐场景。

在LinUCB中,每一个arm维护一组参数,用户和每一个arm的组合可以形成一个上下文特征(上下文特征的特征维度为d),那么对于一个用户来说,在每个arm上所能够获得的期望收益如下:

对于一个老虎机来说,假设手机到了m次反馈,特征向量可以写作Da(维度为md),假设我们收到的反馈为Ca(维度为m1),那么通过求解下面的loss,我们可以得到当前每个老虎机的参数的最优解:

这其实就是岭回归嘛,我们很容易得到最优解为:

既然是UCB方法的扩展,我们除了得到期望值外,我们还需要一个置信上界,但是,我们没法继续用Chernoff-Hoeffding Bound的定理来量化这个上界,幸运的是,这个上界已经被人找到了:

因此,我们推荐的item就能够确定了:

可以看到,我们在计算参数及最后推荐结果的时候,用到了以下几部分的信息:上下文特征x,用户的反馈c。而这些信息都是可以每次都存储下来的,因此在收集到了一定的信息之后,参数都可以动态更新,因此我们说LinUCB是一种在线学习方法。

什么是在线学习?个人简单的理解就是模型的训练和更新是在线进行的,能够实时的根据在线上的反馈更新模型的参数。

好了,我们来看一下linUCB算法的流程吧:

上面的ba可以理解为特征向量x和反馈r的乘积。

是否觉得一头雾水,不用着急,我们通过代码来一步步解析上面的流程。

2、linUCB代码实战

本文的代码地址为:https://github.com/princewen/tensorflow_practice/blob/master/recommendation/Basic-Bandit-Demo/Basic-LinUCB.py

设定超参数和矩阵

首先我们设定一些超参数,比如α,正反馈和负反馈的奖励程度r1,r0,上下文特征的长度d

self.alpha = 0.25
self.r1 = 0.6
self.r0 = -16
self.d = 6  # dimension of user features

接下来,我们设定我们的几个矩阵,比如A和A的逆矩阵,b(x和r的乘积),以及参数矩阵:

self.Aa = {} # Aa : collection of matrix to compute disjoint part for each article a, d*d
self.AaI = {}  # AaI : store the inverse of all Aa matrix

self.ba = {}  # ba : collection of vectors to compute disjoin part, d*1
self.theta = {}

初始化矩阵

初始化矩阵对应上面的4-7步,A设置为单位矩阵,b设置为0矩阵,参数也设置为0矩阵,注意的是,每个arm都有这么一套矩阵:

def set_articles(self,art):
    for key in art:
        self.Aa[key] = np.identity(self.d) # 创建单位矩阵
        self.ba[key] = np.zeros((self.d,1))

        self.AaI[key] = np.identity(self.d)
        self.theta[key] = np.zeros((self.d,1))

计算推荐结果

计算推荐结果对应于上面的8-11步,我们直接根据公式计算当前的最优参数和置信上界,并选择最大的arm作为推荐结果。代码中有个小trick,及对所有的arm来说,共同使用一个特征,而不是每一个arm单独使用不同的特征:

def recommend(self,timestamp,user_features,articles):
    xaT = np.array([user_features]) # d * 1
    xa = np.transpose(xaT)

    AaI_tmp = np.array([self.AaI[article] for article in articles])
    theta_tmp = np.array([self.theta[article] for article in articles])
    art_max = articles[np.argmax(np.dot(xaT,theta_tmp) + self.alpha * np.sqrt(np.dot(np.dot(xaT,AaI_tmp),xa)))]

    self.x = xa
    self.xT = xaT

    self.a_max = art_max
    return self.a_max

更新矩阵信息

这对应于上面的12-13步,根据选择的最优arm,以及得到的用户反馈,我们更新A和b矩阵:

def update(self,reward):
    if reward == -1:
        pass
    elif reward == 1 or reward == 0:
        if reward == 1:
            r = self.r1
        else:
            r = self.r0

        self.Aa[self.a_max] += np.dot(self.x,self.xT)
        self.ba[self.a_max] += r * self.x
        self.AaI[self.a_max] = np.linalg.inv(self.Aa[self.a_max])
        self.theta[self.a_max] = np.dot(self.AaI[self.a_max],self.ba[self.a_max])

    else:
        # error

写到这里,本来应该就要结束了,可是脑子里又想到一个问题,为什么可以直接通过加法来更新A矩阵?其实是个很简单的问题,试着写出A矩阵中每个元素的计算公式来,问题就迎刃而解了!

结语

总结一下LinUCB算法,有以下优点(来自参考文献3,自己又增加了一条): 1)由于加入了特征,所以收敛比UCB更快(论文有证明); 2)特征构建是效果的关键,也是工程上最麻烦和值的发挥的地方; 3)由于参与计算的是特征,所以可以处理动态的推荐候选池,编辑可以增删文章; 4)特征降维很有必要,关系到计算效率。 5)是一种在线学习算法。

参考文献

1、https://arxiv.org/pdf/1003.0146.pdf 2、https://zhuanlan.zhihu.com/p/35753281 3、https://blog.csdn.net/legendavid/article/details/71082124 4、https://zhuanlan.zhihu.com/p/32382432

推荐阅读:

推荐系统遇上深度学习系列:

推荐系统遇上深度学习(一)--FM模型理论和实践

推荐系统遇上深度学习(二)--FFM模型理论和实践

推荐系统遇上深度学习(三)--DeepFM模型理论和实践

推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案

推荐系统遇上深度学习(五)--Deep&Cross Network模型理论和实践

推荐系统遇上深度学习(六)--PNN模型理论和实践

推荐系统遇上深度学习(七)--NFM模型理论和实践

推荐系统遇上深度学习(八)--AFM模型理论和实践

推荐系统遇上深度学习(九)--评价指标AUC原理及实践

推荐系统遇上深度学习(十)--GBDT+LR融合方案实战

推荐系统遇上深度学习(十一)--神经协同过滤NCF原理及实战

推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法

原文发布于微信公众号 - 小小挖掘机(wAIsjwj)

原文发表时间:2018-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【干货】如何评价谷歌深度学习速成课程

1753
来自专栏机器之心

论文结果难复现?本文教你完美实现深度强化学习算法DQN

3327
来自专栏机器之心

懒人福利:不写代码调优深度模型,谷歌开源的「What-If」了解一下

构建有效的机器学习系统意味着要问许多问题。仅仅训练一个模型放在那儿是不够的。优秀的从业者就像侦探一样,总是试图更好地理解自己的模型:对数据点的改动对模型的预测能...

943
来自专栏AI科技评论

面对未知分类的图像,我要如何拯救我的分类器

AI 科技评论按:当训练好的图像分类器遇到了训练数据里不存在的类别的图像时,显然它会给出离谱的预测。那么我们应该如何改进分类器、如何克服这个问题呢?

2314
来自专栏人工智能头条

资源 | 给程序员,准入门级深度学习课程

1734
来自专栏腾讯技术工程官方号的专栏

基于 Prophet 的时间序列预测

如果你还在为时间序列预测而苦恼,那就一起走进兴奋而又神奇的Prophet世界吧。

1.4K8
来自专栏人工智能快报

科学家利用光信息实现神经网络计算

美国加州大学洛杉矶分校的科学家利用光信息实现了神经网络计算,相较传统电子器件,其处理速度接近光速,但准确性有所降低。

1072
来自专栏腾讯Bugly的专栏

【Dev Club 分享】深度学习在 OCR 中的应用

Dev Club 是一个交流移动开发技术,结交朋友,扩展人脉的社群,成员都是经过审核的移动开发工程师。每周都会举行嘉宾分享,话题讨论等活动。 本期,我们邀请了 ...

6858
来自专栏新智元

斯坦福新深度学习系统 NoScope:视频对象检测快1000倍

【新智元导读】 斯坦福大学的新研究构建一个名为 NoScope 的深度学习视频对象检测系统,利用视频的局部性对 CNN 模型进行优化,相比当前性能最好的 YOL...

3095
来自专栏达观数据

多模型融合推荐算法在达观数据的运用

多模型融合推荐算法在达观数据的运用 研发背景 互联网时代也是信息爆炸的时代,内容太多,而用户的时间太少,如何选择成了难题。电商平台里的商品、媒体网站里的新闻、小...

5236

扫码关注云+社区

领取腾讯云代金券