首页
学习
活动
专区
工具
TVP
发布

小小挖掘机

专栏作者
516
文章
859672
阅读量
237
订阅数
强化学习推荐系统的模型结构与特点总结
提到强化学习,似乎总给人一种难以训练且难以落地的感觉。但是听大佬说,企业里强化学习推荐系统(RLRS)落地的例子其实已经有不少,不过一般都没有公开细节。现有公开且知名的RLRS技术分享有:
石晓文
2021-03-24
1K0
重磅盘点:过去8年中深度学习最重要的想法汇总
原文:Deep Learning’s Most Important Ideas[1]
石晓文
2020-11-09
6570
无问西东 | 计算机科班小硕的秋招之路
背景为211本硕&计算机科班,无论文无实习,去年趁着暑假时间做了两个竞赛,名次top20这样子,研究生主要是做城市计算的,涉及到机器学习、深度学习、强化学习和图方面的一些算法和内容,导师不怎么管,所以这些理论知识基本都是自学的,其中强化学习是因为疫情在家,觉得开学要找工作了,只靠机器学习和深度学习估计没啥竞争力,所以硬着头皮把强化学习的理论给啃了下来,希望能添加点亮点;剑指offer在家刷了一遍,6月份开学开始刷leetcode,大概刷了150道左右吧,刷的题不是很多,所以后面面试考算法题不是特别顺利,笔试难点的公司基本挂掉。
石晓文
2020-09-25
9600
强化学习在动态交通优化问题中的应用
《Deep Reinforcement Learning for Dynamic Urban Transportation Problems》。
石晓文
2020-03-23
8490
图解自监督学习,人工智能蛋糕中最大的一块
如果人工智能是一块蛋糕,那么蛋糕的大部分是自监督学习,蛋糕上的糖衣是监督学习,蛋糕上的樱桃是强化学习。
石晓文
2020-03-12
1.1K0
漫画带你图解强化学习
最近五年,是强化学习(Reinforcement Learning, RL)爆发的时期。RL是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验.
石晓文
2020-03-03
7010
推荐系统遇上深度强化学习,会有怎样的火花?
推荐系统是我们日常生活中使用最频繁的工具之一,以内容推荐著称的今日头条等都在广泛研究,然而推荐系统的难度却非常大,精准推荐一直是一个非常棘手的问题,目前有很多解决方法,今天为大家介绍的是将强化学习应用于新闻推荐中的应用。
石晓文
2019-12-04
7770
强化学习的三种范例(Three Paradigms of Reinforcement Learning)
“基于模型的方法比没有模型的方法更具样本效率。”近年来,这种经常重复的格言在几乎所有基于模型的RL论文(包括Jacob论文)中都引起关注。如此常识,没有人甚至不介意在旁边加上引文,陈述的真实性是不言而喻的。很明显,但是这是错误的。实际上,在很多情况下,两种方法的采样效率是相同的。
石晓文
2019-11-12
6470
GitHub万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划
自从有了强化学习(RL),AI上能星际争霸,下能雅达利称王,让内行人沉醉,让外行人惊奇。
石晓文
2019-08-19
6860
《李宏毅机器学习完整笔记》发布,Datawhale开源项目LeeML-Notes
李宏毅老师的机器学习视频是机器学习领域经典的中文视频之一,也被称为中文世界中最好的机器学习视频。李老师以幽默风趣的上课风格让很多晦涩难懂的机器学习理论变得轻松易懂,他将理论知识与有趣的例子结合在课堂上展现,并且对深奥的理论知识逐步推导,保证学习者能够学习到问题的精髓所在。比如老师会经常用宝可梦来结合很多机器学习算法。对于想入门机器学习又想看中文讲解的人来说绝对是非常推荐的。
石晓文
2019-08-09
5970
RS Meet DL(57)-[阿里]如何精确推荐一屏物品?
今天介绍的论文题目是:《Exact-K Recommendation via Maximal Clique Optimization》
石晓文
2019-07-24
1.3K0
RS Meet DL(54)-使用GAN搭建强化学习仿真环境
论文名称:《Toward Simulating Environments in Reinforcement Learning Based Recommendations》
石晓文
2019-07-09
4980
推荐系统遇上深度学习(三十五)--强化学习在京东推荐中的探索(二)
本文介绍的论文题目为《Recommendations with Negative Feedback via Pairwise Deep Reinforcement Learning》,这应该是强化学习在京东推荐中的第二篇文章了,上一篇《Deep Reinforcement Learning for List-wise Recommendations》我们在本系列的第十五篇中已经介绍过了,大家可以进行回顾:推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索。
石晓文
2019-05-05
1.7K0
「回顾」强化学习在自然语言处理中的应用
本文首先介绍了强化学习的概念和相关知识,以及与监督学习的区别,然后就强化学习在自然语言处理应用中的挑战和优势进行了讨论。
石晓文
2019-03-06
2.2K0
GAIL:一种结合GAN思想的反向强化学习方法
前几天听到一声广告语:只要你愿意,从现在开始努力,最坏的结果不过是大器晚成。好了,既然我们决定要努力,要怎么做呢?我们要有自己的一套方法论,如何得到自己的方法论呢?最简单的方法就是从成功者的身上去学习,在学习的基础上,结合自身的情况和经验,不断完善形成自己的一套方法论,进而取得成功。这其实就是我们今天要介绍的反向强化学习方法(Inverse Reinforcement Learning)的基本思想。同时,也作为辞旧迎新的话语,激励自己和大家在新的一年里,不断努力,砥砺前行。
石晓文
2019-03-06
1.3K0
Categorical DQN-一种建模价值分布的深度强化学习方法!
之前介绍的DQN及其各种变体,网络输出的都是状态-动作价值Q的期望预估值。而本文将介绍的Categorical DQN,它建模的是状态-动作价值Q的分布。这样的估计方法使得估计结果更加细致可信。
石晓文
2019-01-02
1.7K0
强化学习反馈稀疏问题-HindSight Experience Replay原理及实现!
在强化学习中,反馈稀疏是一个比较常见同时令人头疼的问题。因为我们大部分情况下都无法得到有效的反馈,模型难以得到有效的学习。为了解决反馈稀疏的问题,一种常用的做法是为Agent增加一些内在的目标使反馈变的不再稀疏。
石晓文
2018-12-27
1.8K0
强化学习AC、A2C、A3C算法原理与实现!
跟着李宏毅老师的视频,复习了下AC算法,新学习了下A2C算法和A3C算法,本文就跟大家一起分享下这三个算法的原理及tensorflow的简单实现。
石晓文
2018-12-21
3.5K0
推荐系统遇上深度学习(二十三)--大一统信息检索模型IRGAN在推荐领域的应用
信息检索领域的一个重要任务就是针对用户的一个请求query,返回一组排好序的召回列表。
石晓文
2018-10-23
1.1K0
探秘多智能体强化学习-MADDPG算法原理及简单实现
之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等。本文,就带你简单了解一下Open-AI的MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法,来共同体验一下多智能体强化学习的魅力。
石晓文
2018-07-25
7.8K3
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档