首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

经过大量的研究,大家目前比较认可的高效探索策略有Upper Confidence Bound (UCB) 和Thompson Sampling (TS) 两种。...Thompon Sampling的方法会通过后验分布来刻画不确定度:如果后验分布比较“宽”,则认为对环境的不确定比较大,如果后验分布比较“窄”,则认为对环境的不确定度比较小。...除此之外,通过从后验分布中采样,Thompson Sampling的方法也可以实现像UCB那样的乐观估计。...虽然两种方法都有理论保证,但是有大量研究表示Thompson Sampling的方法实际性能会比UCB更好一些。 想要把Thompson Sampling的方法应用在RL里并不那么容易。...base model就是一个基本的DQN模型;hypermodel则是一个meta model来度量base model的parameter uncertainty(在Thompson Sampling

54020

【LDA数学八卦-3】MCMC 和 Gibbs Sampling

而本节中将要重点介绍的 MCMC(Markov Chain Monte Carlo) 和 Gibbs Sampling算法就是最常用的一种,这两个方法在现代贝叶斯分析中被广泛使用。...3.2 Gibbs Sampling 对于高维的情形,由于接受率 α的存在(通常 α<1), 以上 Metropolis-Hastings 算法的效率不够高。...而这个算法就称为 Gibbs Sampling 算法,是 Stuart Geman 和Donald Geman 这两兄弟于1984年提出来的,之所以叫做Gibbs Sampling 是因为他们研究了Gibbs...Gibbs Sampling 算法中的马氏链转移 以上采样过程中,如图所示,马氏链的转移只是轮换的沿着坐标轴 x轴和y轴做转移,于是得到样本 (x0,y0),(x0,y1),(x1,y1),(x1,y2...额外说明一下,我们看到教科书上的 Gibbs Sampling 算法大都是坐标轴轮换采样的,但是这其实是不强制要求的。

1.1K80
领券