Reinforce Learning

强化学习笔记。

K-摇臂赌博机

赌徒投币后选择一个摇臂,每个摇臂以一定概率吐出硬币。

算法需要最小化累计遗憾

\begin{align} R_T &= \sum_{i=1}^{T} \bigg(w_{opt} - w_{B(i)} \bigg) \\ &=Tw^* - \sum_{i=1}^{T} w_{B(i)} \end{align}

其中 wB(i)w_{B(i)}w​B(i)​​ 是第 iii 次实验被选中臂的期望收益,w∗w^*w​∗​​ 是最佳选择臂的收益。

基于规则

仅探索

将所有机会平均分给么个摇臂

仅利用

按下目前最优的摇臂,如果多个同为最优,随机选择一个最优。

以上两种方法,是强化学习面临的『探索 - 利用窘境』(Exploration-Exploitation dilemma),折衷二者,以获得更优方案。

ϵ\epsilonϵ - 贪心法

以 ϵ\epsilonϵ 的概率进行探索;以 1−ϵ1-\epsilon1−ϵ 的概率进行利用。

Softmax

若某些摇臂的平均奖赏高于其他摇臂,则被选取的概率 PPP 更高

P(k)=eQ(k)τ∑i=1KeQ(i)τP(k)=\frac{e^{\frac{Q(k)}{\tau}}}{\sum_{i=1}^{K}e^{\frac{Q(i)}{\tau}}} P(k)=​∑​i=1​K​​e​​τ​​Q(i)​​​​​​e​​τ​​Q(k)​​​​​​

其中 Q(k)Q(k)Q(k) 记录当前摇臂的平均奖赏;τ>0\tau > 0τ>0 称为温度,趋于 0 时仅利用,区域无穷大时仅探索。

有模型学习

Markov Decision Process

Q-learning

可用于推荐系统 [0.1]

免模型学习

现实世界中,环境的转移概率、奖赏函数往往难以得知,甚至很难知道环境中一共有多少状态。若学习不依赖于环境建模,则称为免模型学习。

蒙特卡洛强化学习

蒙特卡洛方法又称模拟统计方法,通过随机数来解决计算问题,如通过洒豆子估算圆形的面积。

蒙特卡洛强化学习,通过多次采样,然后求平均累计奖赏来作为期望累积奖赏的近似。然后借鉴 ϵ\epsilonϵ - 贪心法,在下一步执行策略

\pi^\epsilon = \begin{cases} \pi(x), &以概率 1 - \epsilon \\ A 中以均匀概率选取的动作,&以概率 \epsilon \end{cases}

时序差分学习

模仿学习

通过借助专家决策过程的范例,加速学习过程。

直接模仿学习

首先获取人类专家的决策轨迹数据 \{\tau_1, \tau_2, …, \tau_m\},每条轨迹包括状态和动作序列

τi=⟨s1i,a1i,s2i,s2i,...,sni+1i⟩\tau_i = \langle s_1^i, a_1^i, s_2^i, s_2^i, ..., s_{n_i+1}^i \rangle τ​i​​=⟨s​1​i​​,a​1​i​​,s​2​i​​,s​2​i​​,...,s​n​i​​+1​i​​⟩

其中 nin_in​i​​ 为第 iii 条轨迹中的转移次数

我们可以把 sss 作为输出,aaa 作为输出,通过有监督学习以下数据集,得到一个初始化的策略模型

D={(s1,a1),(s2,a2),...,(s∑i=1mni,a∑i=1mni)}D=\{(s_1, a_1), (s_2, a_2), ..., (s_{\sum^m_{i=1} n_i}, a_{\sum_{i=1}^m n_i})\} D={(s​1​​,a​1​​),(s​2​​,a​2​​),...,(s​∑​i=1​m​​n​i​​​​,a​∑​i=1​m​​n​i​​​​)}

然后把学得的策略模型作为强化学习的输入

逆强化学习

Reference

[1] 《机器学习》周志华

[2] Bandit算法与推荐系统 http://geek.csdn.net/news/detail/195714

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

十大预训练模型,助力入门深度学习(第1部分 - 计算机视觉)

对于希望运用某个现有框架来解决自己的任务的人来说,预训练模型可以帮你快速实现这一点。通常来说,由于时间限制或硬件水平限制大家往往并不会从头开始构建并训练模型,这...

1474
来自专栏量子位

看图猜口袋妖怪属性,这个神经网络可能比你强!(教程)

△ Who’s that Pokémon王新民 编译自 博客Journal of Geek Studies 量子位·QbitAI 出品 还记得去年异常火爆,然而...

3826
来自专栏新智元

分分钟带你杀入Kaggle Top 1%,8000字实战分享

【新智元导读】参加Kaggle常常会获得很多启发,与来着世界各地的队伍进行厮杀的刺激更让人欲罢不能。本文内容包括了Kaggle比赛介绍,以及来自Kaggle T...

45914
来自专栏SIGAI学习与实践平台

化秋毫为波澜:运动放大算法(深度学习版)

运动放大(Motion Magnification),将视频中对应位置的运动进行放大,简单理解的话,就是找到时间段内的运动矢量,进行放大,然后权值叠加回去。

3715
来自专栏AI科技大本营的专栏

忘掉PS吧!欢迎进入修图的神经网络时代

左边是原图,右边是修图。是不是觉得美女与右边图片的背景搭在一起,更有动感和帅气。可是不会修图啊,肿么办? 今天让我们来看一个有意思的AI应用,让不会PS的你,...

4155
来自专栏机器之心

ICML 2018 | 第四范式联合港科大提出样本自适应在线卷积稀疏编码

论文链接:http://proceedings.mlr.press/v80/wang18k.html

1232
来自专栏从流域到海域

A Gentle Introduction to Applied Machine Learning as a Search Problem (译文)

A Gentle Introduction to Applied Machine Learning as a Search Problem 浅谈应用型机器学习作...

2706
来自专栏吉浦迅科技

(图解)机器学习的衰颓兴盛:从类神经网络到浅层学习

1950年代计算机发明以来,科学家便希冀着利用计算机创造出人工智能;然而,当时的硬件效能低落、数据量不足,随着通用问题解决机、日本第五代计算机等研究计划的失败,...

38311
来自专栏IT大咖说

百度:深度学习模型设计的经验分享

内容来源:2018 年 05 月 18 日,百度资深研发工程师刘凡平在“百度深度学习公开课·杭州站:AI工程师的快速进阶之路”进行的《深度学习模型设计经验分享》...

1601
来自专栏大数据文摘

从概念到应用:一文搞定数据科学和机器学习的最常见面试题

1836

扫码关注云+社区

领取腾讯云代金券