首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

    经过大量的研究,大家目前比较认可的高效探索策略有Upper Confidence Bound (UCB) 和Thompson Sampling (TS) 两种。...Thompon Sampling的方法会通过后验分布来刻画不确定度:如果后验分布比较“宽”,则认为对环境的不确定比较大,如果后验分布比较“窄”,则认为对环境的不确定度比较小。...除此之外,通过从后验分布中采样,Thompson Sampling的方法也可以实现像UCB那样的乐观估计。...虽然两种方法都有理论保证,但是有大量研究表示Thompson Sampling的方法实际性能会比UCB更好一些。 想要把Thompson Sampling的方法应用在RL里并不那么容易。...base model就是一个基本的DQN模型;hypermodel则是一个meta model来度量base model的parameter uncertainty(在Thompson Sampling

    63120

    推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法

    4.3 Thompson sampling算法 Thompson sampling算法用到了Beta分布,该方法假设每个老虎机都有一个吐钱的概率p,同时该概率p的概率分布符合beta(wins, lose...Chernoff-Hoeffding Bound说起: 因此(下面的截图来自于知乎https://zhuanlan.zhihu.com/p/32356077): 代码实现 接下来,我们来实现两个基本的Bandit算法,UCB和Thompson...sampling算法。...estimated_rewards[item] = ((t - 1) * estimated_rewards[item] + reward) / t chosen_count[item] += 1 5.2 Thompson...sampling算法 Thompson sampling算法涉及到了beta分布,因此我们使用pymc库来产生服从beta分布的随机数,只需要一行代码就能在选择合适的老虎机。

    1.9K00
    领券