专栏首页探物及理强化学习笔记9:探索和利用 exploration and exploitation

强化学习笔记9:探索和利用 exploration and exploitation

1、introduction

本章的主题是关于利用和探索的矛盾:

  • Exploitation:利用当前已知信息做决策
  • Exploration:探索未知空间获取更多信息

最佳的策略是用长期的眼光来看,放弃短期高回报 获取足够策略是让策略变成全局最优的必要条件

几个基本的探索方法: 主要分三类:

  1. 随机
  2. 基于不确定性
  3. 信息状态空间
  • 朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索;
  • 乐观初始估计(Optimistic Initialization): 优先选择当前被认为是最高价值的行为,除非新信息的获取推翻了该行为具有最高价值这一认知;
  • 不确定优先(Optimism in the Face of Uncertainty): 优先尝试不确定价值的行为;
  • 概率匹配(Probability Matching): 根据当前估计的概率分布采样行为;
  • 信息状态搜索(Information State Search): 将已探索的信息作为状态的一部分联合个体的状态组成新的状态,以新状态为基础进行前向探索。
  • 状态动作探索State-action exploration:系统地探索状态和动作空间,类似于查表法
  • 参数探索Parameter exploration:
    • 动作选择遵照策略\(\pi (A|S,u)\)
    • 每隔一段时间,更新策略参数
    • 优点:连续的探索
    • 缺点:对状态/动作空间不直观

2、多臂赌博机 Multi-Armed Bandits

简介

一个赌徒面前有N个赌博机,事先他不知道每台赌博机的真实盈利情况,他如何根据每次玩赌博机的结果来选择下次拉哪台或者是否停止赌博,来最大化自己的从头到尾的收益.

好的算法让大gap对应的计数最小,但问题是,gaps未知???

线性和次线性的regret

因为总计后悔值,是累加计算,只要有gap,就会随着时间步增长

  • 曲线线性增长,表明
    • 算法停止探索
    • 算法卡在局部最优

2.1 朴素探索 native exploration

greedy:卡在局部最优,总后悔线性增长

Solution:乐观初始化 Optimistic initialisation

Solution:选择策略让\(\epsilon\)递减

2.2 不确定性优先 optimism in the face of uncertainty

相关概念

总后悔值下限 lower bound

霍夫丁不等式 Hoeffding's inequality

提供了置信上限的计算方法,要求先对数据进行缩放,缩放到[0,1]

UCB可以被应用到:

  • 伯恩斯坦 不等式
  • 经验伯恩斯坦 不等式
  • 切尔诺夫 不等式
  • azuma 不等式

贝叶斯 Bayesian bandits

贝叶斯UCB

  • 计算方法:

2.1 概率匹配

特点:

  • 面对不确定性时,概率匹配是最优的
    • 不确定行动,可能获取最大值
  • 无法得到解析的后验值

2.2 Thompson Sampling

Value information

Value 可以指导 动作性选择

评价 value of information

  • 预算,获取信息的成本
    • 如果次数少,基于目前的选择;选择机会多,倾向于探索
    • 长期的奖励 由于 即刻 奖励
  • 在不确定的情况下,信息增益高,如果什么都知道了,不需要获取信息
  • 如果我们知道更多信息,就可以最优的平衡 利用 和 探索

信息状态空间 Information state space

Gittins indices for 贝叶斯赌博机

总结

3、语境赌博机 Contextual Bandits

introduction

线性 UCB

线性回归:

构建线性回归Q值 函数估计器,求解估计参数,在状态s下可以求得最优动作a

线性 UCB

几何解释:

求解线性UCB

4、MDPs

乐观初始化: model-free RL

Bayesian model-based RL

汤姆逊采样:model-based RL

Bayes adaptive MDPs

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习-Coursera笔记

    h(z)代表着一个边界,将值分为>0和<0 由于sigmoid函数的特性,程序最终会优化到z取值远离零点

    列夫托尔斯昊
  • 强化学习笔记2:Markov decision process(MDP)

    我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。

    列夫托尔斯昊
  • 强化学习笔记7:策略梯度 Policy Gradient

    之前的策略优化,用的基本都是\(\epsilon\)-greedy的policy improve方法,这里介绍policy gradient法,不基于v、q函数

    列夫托尔斯昊
  • PHP运算符

    老雷PHP全栈开发
  • 深度学习之线性单元(梯度下降算法)(二)

    线性的概念: "线性"="齐次性"+"可加性", "齐次性"是指类似于: f(ax)=af(x), "可加性"是指类似于: f(x+y)=f(x)+f(y...

    李小白是一只喵
  • TBtools基因家族分析详细教程(3)基因家族成员的进化分析1

    其中,No.of Bootstrap Replication默认最小50,即使设定10也自动调整为50。

    Y大宽
  • POST型SQL注入教学

    上次我给大家分享的AJE-Windows里面什么工具都有,可以直接装一个AJE-Windows工具不用一个一个的下,太麻烦

    酷酷的繁星
  • (30)打鸡儿教你Vue.js

    1、通过webpack搭建vue工程workflow 2、哪些是学习vue的重点 3、.vue文件开发模式 4、vue使用jsx进行开发的方式 5、vu...

    达达前端
  • rxjs里的Observable对象和map配合的一个用法

    新建一个Observable对象,将当前Observable对象传给source,operator.project即箭头函数:

    Jerry Wang
  • SAP Spartacus的StorefrontConfig对象

    我们调用B2cStorefrontModule.withConfig方法时,需要传一个类型为StorefrontConfig的对象进去。

    Jerry Wang

扫码关注云+社区

领取腾讯云代金券