首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

    经过大量的研究,大家目前比较认可的高效探索策略有Upper Confidence Bound (UCB) 和Thompson Sampling (TS) 两种。...Thompon Sampling的方法会通过后验分布来刻画不确定度:如果后验分布比较“宽”,则认为对环境的不确定比较大,如果后验分布比较“窄”,则认为对环境的不确定度比较小。...除此之外,通过从后验分布中采样,Thompson Sampling的方法也可以实现像UCB那样的乐观估计。...虽然两种方法都有理论保证,但是有大量研究表示Thompson Sampling的方法实际性能会比UCB更好一些。 想要把Thompson Sampling的方法应用在RL里并不那么容易。...base model就是一个基本的DQN模型;hypermodel则是一个meta model来度量base model的parameter uncertainty(在Thompson Sampling

    73120
    领券