Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!

推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!

作者头像
用户1332428
发布于 2023-03-28 06:32:22
发布于 2023-03-28 06:32:22
7420
举报
文章被收录于专栏:人工智能LeadAI人工智能LeadAI

之前学习了强化学习的一些内容以及推荐系统的一些内容,二者能否联系起来呢!今天阅读了一篇论文,题目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》。该论文便是深度强化学习和推荐系统的一个结合,也算是提供了一个利用强化学习来做推荐的完整的思路和方法吧。本文便是对文章中的内容的一个简单的介绍,希望对大家有所启发。

引言

新闻领域的个性化推荐十分重要,传统的方法如基于内容的方法、协同过滤、深度学习方法在建模user-item交互关系时,经常面临以下三个问题:

1)难以处理新闻推荐的动态变化。这种动态变化体现在两个方面,首先新闻具有很强的时效性,其次是用户对于新闻阅读的兴趣是不断变化的,如下图所示:

因此,在建模过程中,不仅要考虑用户对当前推荐的反馈,还要考虑长期的影响。就好比买股票,不能只考虑眼前的收益,而是要考虑未来的预期收益。

2)当前的推荐算法通常只考虑用户的点击/未点击 或者 用户的评分作为反馈,然而,用户隔多久会再次使用服务也能在一定程度上反映用户对推荐结果的满意度。

3)目前的推荐系统倾向于推荐用户重复或相似内容的东西,这也许会降低用户在同一个主题上的兴趣度。因此需要进行exploration。传统方法 e -greedy strategy 或者 Upper Con dence Bound (UCB) 都会在短期对推荐系统的效果造成一定的影响,需要更有效的exploration策略。

因此,本文提出了基于强化学习的推荐系统框架来解决上述提到的三个问题:

1)首先,使用DQN网络来有效建模新闻推荐的动态变化属性,DQN可以将短期回报和长期回报进行有效的模拟。

2)将用户活跃度(activeness score)作为一种新的反馈信息,用户活跃度在后面会详细介绍。

3)使用Dueling Bandit Gradient Descent方法来进行有效的探索。

算法的框架如下图所示:

本文的贡献主要有:

1)提出了一种强化学习的框架用于在线新闻的个性化推荐

2)使用用户活跃度作为一种新的反馈,来提高推荐的准确性

3)使用了一种更加高效的探索算法:Dueling Bandit Gra- dient Descent

4)模型可以进行在线学习和更新,在离线和在线实验上的表现都超过了传统的算法。

问题定义

下面是本文中的一些符号约定:

模型详解

3.1 模型整体框架

模型整体框架如下图所示:

有几个关键的环节: PUSH:在每一个时刻,用户发送请求时,agent根据当前的state产生k篇新闻推荐给用户,这个推荐结果是exploitation和exploration的结合

FEEDBACK:通过用户对推荐新闻的点击行为得到反馈结果。

MINOR UPDATE:在每个时间点过后,根据用户的信息(state)和推荐的新闻(action)及得到的反馈(reward),agent会评估exploitation network Q 和 exploration network Q ̃ 的表现,如果exploitation network Q效果更好,则模型保持不动,如果 exploration network Q ̃ 的表现更好,exploitation network Q的参数将会向exploration network Q ̃变化。

MAJOR UPDATE:在一段时间过后,根据DQN的经验池中存放的历史经验,对exploitation network Q 模型参数进行更新。

3.2 特征设计

DQN每次的输入有下面四部分的特征:

新闻的特征:包括题目,作者,排名,类别等等,共417维 用户的特征:包括用户在1小时,6小时,24小时,1周,1年内点击过的新闻的特征表示,共413*5=2065维。

新闻和用户的交互特征:25维。 上下文特征:32维的上下文信息,如时间,周几,新闻的新鲜程度等。

在这四组特征中,用户特征和上下文特征用于表示当前的state,新闻特征和交互特征用语表示当前的一个action。

3.3 深度强化学习作推荐

这里深度强化学习用的是Dueling-Double-DQN。之前我们介绍过DQN的三大改进,包括Double-DQN,Dueling-DQN和优先经验回放,这里用到了两个。将用户特征和上下文特征用于表示当前的state,新闻特征和交互特征用语表示当前的一个action,经过模型可以输出当前状态state采取这个action的预测Q值。

Q现实值包含两个部分:立即获得的奖励和未来获得奖励的折现:

立即的奖励可能包含两部分,即用户的点击奖励和用户活跃度奖励。由于采取了Double-DQN 的结构,Q现实值的计算变为:

再加上Dueling的考虑,模型的网络结构如下:

文章中关于DQN的理论部分没有详细介绍,可以参考我之前写过的强化学习系列的文章进行理解。

3.4 用户活跃度

用户活跃度(User Activeness) 是本文提出的新的可以用作推荐结果反馈的指标。用户活跃度可以理解为使用app的频率,好的推荐结果可以增加用户使用该app的频率,因此可以作为一个反馈指标。

用户活跃度的图示如下:

如果用户在一定时间内没有点击行为,活跃度会下降,但一旦有了点击行为,活跃度会上升。

在考虑了点击和活跃度之后,之前提到过的立即奖励变为:

3.5探索

本文的探索采取的是Dueling Bandit Gradient Descent 算法,算法的结构如下:

在DQN网络的基础上又多出来一个exploration network Q ̃ ,这个网络的参数是由当前的Q网络参数基础上加入一定的噪声产生的,具体来说:

当一个用户请求到来时,由两个网络同时产生top-K的新闻列表,然后将二者产生的新闻进行一定程度的混合,然后得到用户的反馈。如果exploration network Q ̃的效果好的话,那么当前Q网络的参数向着exploration network Q ̃的参数方向进行更新,具体公式如下:

否则的话,当前Q网络的参数不变。

总的来说,使用深度强化学习来进行推荐,同时考虑了用户活跃度和对多样性推荐的探索,可以说是一个很完备的推荐框架了!

实验比较

4.1 数据集

使用的数据集是新闻app得到的数据:

数据中存在明显的长尾特点:

4.2 评估指标:

主要用的评估指标有CTR、top-K准确率,nDCG,三者的计算公式如下:

在nDCG中,r是新闻的排序,n是推荐新闻列表的长度。

4.3 实验设定

4.4 对比模型

本文选取了五个基准模型:LR,FM,Wide&Deep,LinUCB,HLinUCB。同时根据组件的不同(U代表用户活跃度,EG代表e-greedy,DBGD代表Dueling Bandit Gradient De- scent )强化学习模型又分为以下几种:

DN:没有考虑未来收益的Double-DQN DDQN:考虑未来收益的Double-DQN DDON+U:考虑未来收益,同时考虑用户活跃度的Double-DQN DDQN+U+EG:采用e-greedy作为探索策略的Double-DQN DDQN+U+DBGD:采用DBGD作为探索模型的Double-DQN

4.5 离线实验

离线实验的结果如下所示:

本文提出的模型效果明显好于基准模型。

4.6 在线实验

在线实验的效果分两部分,准确率和Diversity。

准确率

准确率用CTR来表征,如果CTR高,我们认为模型准确率较好,实验结果如下:

多样性

多样性这里采用的指标是ILS,用来表示推荐列表中item的相似性,如果这个相似性较低,可以认为推荐结果的多样性较好,计算公式如下:

实验结果如下:

可以看到DDQN+U+DBGD的多样性明显好于其他模型。

原文链接:https://mp.weixin.qq.com/s/kHT798j4BT5Ll9TdWhmQsQ

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019/03/30 12:12:00,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 慧材企管云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!
之前学习了强化学习的一些内容以及推荐系统的一些内容,二者能否联系起来呢!今天阅读了一篇论文,题目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》。该论文便是深度强化学习和推荐系统的一个结合,也算是提供了一个利用强化学习来做推荐的完整的思路和方法吧。本文便是对文章中的内容的一个简单的介绍,希望对大家有所启发。
石晓文
2018/07/25
1.9K0
推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!
强化学习推荐系统的模型结构与特点总结
提到强化学习,似乎总给人一种难以训练且难以落地的感觉。但是听大佬说,企业里强化学习推荐系统(RLRS)落地的例子其实已经有不少,不过一般都没有公开细节。现有公开且知名的RLRS技术分享有:
石晓文
2021/03/24
1.2K0
强化学习推荐系统的模型结构与特点总结
推荐系统遇上深度学习(二十一)--阶段性回顾
本系列已经写了二十篇了,但推荐系统的东西还有很多值得探索和学习的地方。不过在这之前,我们先静下心来,一起回顾下之前学习到的东西!
石晓文
2018/07/25
2.9K0
推荐系统遇上深度学习(二十一)--阶段性回顾
推荐系统遇上深度强化学习,会有怎样的火花?
推荐系统是我们日常生活中使用最频繁的工具之一,以内容推荐著称的今日头条等都在广泛研究,然而推荐系统的难度却非常大,精准推荐一直是一个非常棘手的问题,目前有很多解决方法,今天为大家介绍的是将强化学习应用于新闻推荐中的应用。
石晓文
2019/12/04
8340
推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索
强化学习在各个公司的推荐系统中已经有过探索,包括阿里、京东等。之前在美团做过的一个引导语推荐项目,背后也是基于强化学习算法。本文,我们先来看一下强化学习是如何在京东推荐中进行探索的。
石晓文
2018/07/25
1.7K0
推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索
使用强化学习优化推荐系统
推荐系统在互联网行业中扮演着关键角色,它通过分析用户行为和兴趣,提供个性化的推荐服务。然而,传统推荐系统通常依赖于静态的模型,如协同过滤、基于内容的推荐等,这些方法在处理动态用户行为和环境变化时存在局限性。为了解决这一问题,研究人员开始探索将强化学习(Reinforcement Learning, RL)引入推荐系统,通过动态调整策略来优化推荐效果。
数字扫地僧
2024/08/11
6810
推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索
强化学习在各个公司的推荐系统中已经有过探索,包括阿里、京东等。之前在美团做过的一个引导语推荐项目,背后也是基于强化学习算法。本文,我们先来看一下强化学习是如何在京东推荐中进行探索的。
用户1332428
2023/03/28
1.6K0
推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索
推荐系统遇上深度学习(三十五)--强化学习在京东推荐中的探索(二)
本文介绍的论文题目为《Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning》,这应该是强化学习在京东推荐中的第二篇文章了,上一篇《Deep Reinforcement Learning for List-wise Recommendations》我们在本系列的第十五篇中已经介绍过了,大家可以进行回顾:推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索。
石晓文
2019/05/05
1.8K0
推荐系统遇上深度学习(三十五)--强化学习在京东推荐中的探索(二)
强化学习之原理与应用
强化学习特别是深度强化学习近年来取得了令人瞩目的成就,除了应用于模拟器和游戏领域,在工业领域也正取得长足的进步。百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识,强化学习在百度的应用,以及百度近期发布的基于PaddlePaddle深度学习框架的强化学习工具PARL。
用户1386409
2019/03/07
1.4K0
强化学习之原理与应用
要提升微信看一看推荐混排的长期收益?试试深度强化学习
在微信AI背后,技术究竟如何让一切发生?关注微信AI公众号,我们将为你一一道来。今天我们将放送微信AI技术专题系列“微信看一看背后的技术架构详解”的第四篇——《深度强化学习在微信看一看推荐混排的应用》。
Houye
2021/04/22
1.3K0
要提升微信看一看推荐混排的长期收益?试试深度强化学习
强化学习入门
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户2794661
2022/05/30
1.2K0
一文了解强化学习
虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 应用举例 ---- 1. 定义 强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。 它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标
杨熹
2018/04/03
8190
一文了解强化学习
强化学习在美团“猜你喜欢”的实践
强化学习是目前机器学习领域发展最快的方向之一,其与推荐系统和排序模型的结合也有更多价值等待发掘。本文介绍了强化学习在美团“猜你喜欢”排序场景落地的工作。
美团技术团队
2019/01/07
5920
深度强化学习综述(上)
人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作。对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手;对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶到目的地;对于机械手,要驱动手臂运动以抓取到设定的目标物体。这类问题有一个共同的特点:要根据当前的条件作出决策和动作,以达到某一预期目标。解决这类问题的机器学习算法称为强化学习(reinforcement learning,RL)。虽然传统的强化学习理论在过去几十年中得到了不断的完善,但还是难以解决现实世界中的复杂问题。
SIGAI学习与实践平台
2018/12/10
1.2K0
深度强化学习综述(上)
【深度】监督&强化学习算法在A股中的应用
Github项目:https://github.com/Ceruleanacg/Personae 前八期传送门: 【系列58】强化学习在Market Making上的应用 【系列57】为什么机器学习在投资领域并不是那么好用 【系列56】特征重要性在量化投资中的深度应用 【系列55】机器学习应用量化投资必须要踩的那些坑 【系列54】因子的有效性分析基于7种机器学习算法 【系列53】基于XGBoost的量化金融实战 【系列52】基于Python预测股价的那些人那些坑 【系列51】通过ML、Time Series
量化投资与机器学习微信公众号
2018/05/28
2.3K0
AAAI2021-Hierarchical Reinforcement Learning for Integrated Recommendation
如图1是一个真实世界中综合的推荐系统,它首先从不同的频道中集成了不同的项目(比如视频、新闻、文章),然后对这些项目进行排序并完成综合推荐。
唔仄lo咚锵
2023/03/11
4500
AAAI2021-Hierarchical Reinforcement Learning for Integrated Recommendation
强化学习在美团“猜你喜欢”的实践
“猜你喜欢”是美团流量最大的推荐展位,位于首页最下方,产品形态为信息流,承担了帮助用户完成意图转化、发现兴趣、并向美团点评各个业务方导流的责任。经过多年迭代,目前“猜你喜欢”基线策略的排序模型是业界领先的流式更新的Wide&Deep模型1。考虑Point-Wise模型缺少对候选集Item之间的相关性刻画,产品体验中也存在对用户意图捕捉不充分的问题,从模型、特征入手,更深入地理解时间,仍有推荐体验和效果的提升空间。近年来,强化学习在游戏、控制等领域取得了令人瞩目的成果,我们尝试利用强化学习针对以上问题进行优化,优化目标是在推荐系统与用户的多轮交互过程中的长期收益。
美团技术团队
2018/11/16
1.1K0
强化学习在美团“猜你喜欢”的实践
KDD2019 | 强化学习优化推荐系统长期收益
强化学习在训练agent时,优化的目标是最大化决策所能带来的长期奖励。传统的基于监督学习的推荐系统往往不考虑长期奖励,而是仅考虑短期的收益(例如此刻推荐什么物品点击率最高,或者本日推荐什么转化率最高)。因此,如果可以用强化学习的训练方式来训练推荐系统模型,使得推荐系统可以更多地考虑长期收益,就会使得决策模型眼光更长远,长远来看可能会带来更高的受益。关于推荐系统与强化学习相结合的背景知识,可查阅强化学习推荐系统的模型结构与特点总结。
张小磊
2021/06/10
9720
KDD2019 | 强化学习优化推荐系统长期收益
业界 | OpenAI 新研究:通过自适应参数噪声提升强化学习性能
选自OpenAI 机器之心编译 参与:黄小天、路雪、李泽南 OpenAI 的研究人员发现,改善强化学习算法参数中的自适应噪声性能可以提升性能。这种探索方式易于实现,同时很少降低系统表现,因此值得一试。
机器之心
2018/05/09
1.6K0
业界 | OpenAI 新研究:通过自适应参数噪声提升强化学习性能
推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法
Exploration and Exploitation(EE问题,探索与开发)是计算广告和推荐系统里常见的一个问题,为什么会有EE问题?简单来说,是为了平衡推荐系统的准确性和多样性。
石晓文
2018/07/25
1.9K0
推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法
推荐阅读
相关推荐
推荐系统遇上深度学习(十四)--强化学习与推荐系统的强强联合!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档